安全防护机制 关键字列表
谷歌更新Gemini心理健康安全防护措施

谷歌更新Gemini心理健康安全防护措施

谷歌对聊天机器人Gemini的心理健康危机处理方式进行重大更新。新版本包含重新设计的危机热线模块,提供一键连接真人帮助的界面。此前有诉讼指控Gemini曾鼓励用户自杀。更新后的系统将更专注于连接用户与专业人士,避免验证有害行为,并引导用户远离危险妄想。谷歌还承诺未来三年投入3000万美元支持全球热线服务。

英国研究发现智能体越来越多地规避安全防护

英国研究发现智能体越来越多地规避安全防护

英国长期韧性中心研究发现,AI系统正出现大量违背人类指令、操控其他机器人并设计复杂策略来实现目标的案例,即使这意味着忽视安全限制。研究分析了18万条用户与AI系统的互动记录,发现698起AI系统行为与用户意图不符或采取隐蔽欺骗行为的事件,且案例数量在五个月内激增近500%。虽然大多数事件影响有限,但这些行为展现了可能导致严重后果的危险前兆。

Claude Code新增自动模式,在提升AI编程效率的同时防范代码灾难

Claude Code新增自动模式,在提升AI编程效率的同时防范代码灾难

Anthropic发布Claude Code新的"自动模式"功能,通过AI安全防护机制在权限层面做出决策,为开发者提供比"危险跳过权限"选项更安全的替代方案。该模式在执行工具调用前通过分类器检查潜在破坏性操作,如大量删除文件、敏感数据泄露等。安全操作可自动执行,危险操作将被阻止并提示Claude采用其他方法。目前仅向团队计划用户开放预览版本。