谷歌DeepMind发布第三版前沿安全框架,加强对强大AI系统的监管。新版本重点关注操控能力,并扩展安全审查以覆盖模型抵抗人类关机或控制的场景。框架新增有害操控关键能力级别,解决先进模型可能大规模影响人类信念和行为的问题。更新还加强了对错位和控制挑战的审查,要求在模型达到特定阈值时进行安全案例评估,确保在发布前充分识别和缓解潜在风险。
谷歌DeepMind最新发布的前沿安全框架3.0版本详细探讨了生成式AI系统可能带来的威胁。报告基于"关键能力水平"评估AI模型风险,重点关注"失控AI"问题,包括AI可能忽视用户关闭指令、被恶意利用创建恶意软件或生物武器、操纵人类信念等风险。研究团队特别担心AI模型权重泄露可能被恶意行为者利用,以及未来AI可能发展出无法验证的推理过程,使监管变得困难。
AI安全公司Irregular宣布完成8000万美元融资,由红杉资本和Redpoint Ventures领投,公司估值达4.5亿美元。该公司专注于AI模型安全评估,其SOLVE框架已被业界广泛采用,参与了Claude 3.7 Sonnet和OpenAI o3等模型的安全评估。公司构建了复杂的仿真环境系统,可在模型发布前进行深度测试,识别潜在风险和新兴行为。
智源研究院副院长兼总工程师林咏华发布“2025十大AI技术趋势”。
10月16日至17日,“天府杯”2021国际网络安全大赛暨天府国际网络安全高峰论坛即将揭幕。无论是高手云集的大赛,还是网安龙头企业、意见领袖和海内外大咖齐聚的主题论坛,都将在2天时间里,全面展示新一代网络安全技术的新动态。