AI安全文章列表第1页-至顶网频道

AI安全关键字列表

人工智能

AI安全

风险评估框架

2025-09-23

Google DeepMind升级前沿AI安全框架，防范操控和抗关停风险

谷歌DeepMind发布第三版前沿安全框架，加强对强大AI系统的监管。新版本重点关注操控能力，并扩展安全审查以覆盖模型抵抗人类关机或控制的场景。框架新增有害操控关键能力级别，解决先进模型可能大规模影响人类信念和行为的问题。更新还加强了对错位和控制挑战的审查，要求在模型达到特定阈值时进行安全案例评估，确保在发布前充分识别和缓解潜在风险。

人工智能

AI安全

风险评估

2025-09-23

DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

谷歌DeepMind最新发布的前沿安全框架3.0版本详细探讨了生成式AI系统可能带来的威胁。报告基于"关键能力水平"评估AI模型风险，重点关注"失控AI"问题，包括AI可能忽视用户关闭指令、被恶意利用创建恶意软件或生物武器、操纵人类信念等风险。研究团队特别担心AI模型权重泄露可能被恶意行为者利用，以及未来AI可能发展出无法验证的推理过程，使监管变得困难。

网络安全

AI安全

风险评估

2025-09-18

AI安全公司Irregular获8000万美元融资，专注前沿AI模型安全防护

AI安全公司Irregular宣布完成8000万美元融资，由红杉资本和Redpoint Ventures领投，公司估值达4.5亿美元。该公司专注于AI模型安全评估，其SOLVE框架已被业界广泛采用，参与了Claude 3.7 Sonnet和OpenAI o3等模型的安全评估。公司构建了复杂的仿真环境系统，可在模型发布前进行深度测试，识别潜在风险和新兴行为。