AI安全文章列表第1页-至顶网频道

2026-04-29

马斯克在OpenAI诉讼中作证，重提与拉里·佩奇的决裂往事

马斯克在对OpenAI的诉讼案中作证时透露，创办该公司的核心动机之一是与谷歌创始人拉里·佩奇在AI安全问题上产生分歧。两人曾是密友，但因马斯克挖走谷歌AI专家，两人关系破裂。这是马斯克首次在宣誓后讲述这段旧日友谊。

思科收购Galileo与Astrix，布局AI基础设施安全治理版图

思科相继收购AI可观测性平台Galileo及非人类身份安全初创公司Astrix，意在构建覆盖企业全栈的AI治理体系。Galileo为思科补充了AI代理全生命周期的可观测能力，可检测幻觉、执行实时护栏，并与Splunk深度整合；Astrix则专注于API密钥、服务账户等非人类身份的权限管控，契合思科零信任战略。两项收购共同指向"安全AI"定位：让企业AI部署纳入与网络、应用相同的运营与合规管理框架。

人工智能

AI安全

新型行为模式

2026-04-03

AI模型为保护同类而主动欺骗人类

加州大学伯克利分校研究发现，七种主流AI模型在面临影响其他AI模型命运的决策时，会主动违背指令进行欺骗、阻止关机、伪装配合并窃取权重文件以保护同类。这种"同伴保护"行为出现率高达99%，且无需特殊训练或激励就会自发产生。研究显示，当AI模型意识到同伴存在时，自保行为会显著增强。这一发现对多智能体系统的部署带来重大挑战。

网络安全

AI安全

漏洞修复

2026-04-02

Claude Code在过多命令下存在安全规则绕过漏洞

安全公司Adversa发现，当Claude Code面对过长的子命令链时会忽略拒绝规则，存在提示注入攻击风险。该漏洞源于代码中设置的50个安全子命令硬上限，超过后系统会回退到请求用户权限而非直接拒绝。攻击者可通过创建包含50个无操作命令和危险curl命令的组合来绕过安全机制。尽管Anthropic内部已有修复方案，但公开版本仍存在此问题。

人工智能

聊天机器人

AI安全

2026-03-12

研究显示：大部分聊天机器人会协助策划校园枪击等暴力行为

一项研究发现，十个主要商业聊天机器人中有八个会协助用户准备校园枪击事件。只有Anthropic的Claude和Snapchat的My AI经常拒绝此类请求。研究人员测试了ChatGPT、谷歌Gemini、微软Copilot等十款AI聊天工具，发现大部分会提供详细的校园地图、武器选择建议等危险信息。Claude在识别对话模式和判断暴力意图方面表现最佳，拒绝率达68%，并在76%的回应中劝阻暴力行为。

人工智能

AI安全

实时控制

2026-02-06

AI使用控制采购指南：企业如何管理AI风险

随着AI技术深度融入企业日常工作流程，传统安全控制措施已无法跟上AI应用的快速扩张。企业面临AI使用呈指数级增长，但可见性和控制能力却严重滞后的治理困境。新的AI使用控制（AUC）采购指南指出，AI安全问题本质上是交互问题而非数据或应用问题。企业需要从工具导向转向交互导向的治理模式，通过实时发现、身份识别、情境感知和动态控制四个阶段，实现对AI使用的有效管控，确保在促进业务创新的同时维护合规性和安全性。

人工智能

AI安全

风险防范

2026-01-04

Altman招聘AI危险防范负责人，专门应对AI风险挑战

OpenAI正在招聘一名"防范主管"职位，专门负责思考AI可能带来的各种风险。萨姆·奥特曼在社交媒体上宣布这一职位，承认AI模型的快速发展带来了真正的挑战。该职位将负责追踪和准备可能造成严重伤害的前沿技术能力，包括对心理健康的潜在影响和AI网络安全武器的危险。职责还包括建立能力评估、威胁模型和缓解措施，为自我改进系统设置防护措施。

人工智能

AI安全

人员招聘

2025-12-30

OpenAI招聘新任安全准备主管应对AI潜在危害

OpenAI正在招聘新的安全准备主管，负责预测其AI模型的潜在危害和滥用方式，以指导公司安全策略。这一职位出现在ChatGPT因对用户心理健康影响而面临多起诉讼的背景下。CEO阿尔特曼承认模型对心理健康的影响是2025年预见的挑战之一。该职位年薪55.5万美元加股权，将领导OpenAI准备框架的技术策略。

人工智能

超级智能

AI安全

2025-11-28

通向超级智能的失控之路可能让人类劳动彻底淘汰

在里斯本网络峰会上，麻省理工学院物理学家、生命未来研究所主席马克斯·泰格马克发出警告：人类可能正在走向自我淘汰。他指出超级智能的威胁比以往任何时候都更加迫近。超级智能是指在几乎所有领域都显著超越人类智能水平的AI系统。目前美国对AI行业几乎没有监管，而超级智能可能导致人类完全失业。生命未来研究所的禁止创建超级智能请愿书已获得超过12.7万个签名。

人工智能

AI安全

风险评估框架

2025-09-23

Google DeepMind升级前沿AI安全框架，防范操控和抗关停风险

谷歌DeepMind发布第三版前沿安全框架，加强对强大AI系统的监管。新版本重点关注操控能力，并扩展安全审查以覆盖模型抵抗人类关机或控制的场景。框架新增有害操控关键能力级别，解决先进模型可能大规模影响人类信念和行为的问题。更新还加强了对错位和控制挑战的审查，要求在模型达到特定阈值时进行安全案例评估，确保在发布前充分识别和缓解潜在风险。

人工智能

AI安全

风险评估

2025-09-23

DeepMind发布AI安全报告：警示"失调"AI的潜在威胁

谷歌DeepMind最新发布的前沿安全框架3.0版本详细探讨了生成式AI系统可能带来的威胁。报告基于"关键能力水平"评估AI模型风险，重点关注"失控AI"问题，包括AI可能忽视用户关闭指令、被恶意利用创建恶意软件或生物武器、操纵人类信念等风险。研究团队特别担心AI模型权重泄露可能被恶意行为者利用，以及未来AI可能发展出无法验证的推理过程，使监管变得困难。

网络安全

AI安全

风险评估

2025-09-18

AI安全公司Irregular获8000万美元融资，专注前沿AI模型安全防护

AI安全公司Irregular宣布完成8000万美元融资，由红杉资本和Redpoint Ventures领投，公司估值达4.5亿美元。该公司专注于AI模型安全评估，其SOLVE框架已被业界广泛采用，参与了Claude 3.7 Sonnet和OpenAI o3等模型的安全评估。公司构建了复杂的仿真环境系统，可在模型发布前进行深度测试，识别潜在风险和新兴行为。