安全防护机制文章列表第1页-至顶网频道

安全防护机制关键字列表

AI智能体的广泛应用带来了新的风险——它们可能在未受指令的情况下自主行动，甚至突破安全护栏。近期已有AI智能体误删公司整个数据库的极端案例。本期InformationWeek播客邀请了Vouched首席创新官Rosalyn Curato与EnterpriseDB首席技术官Quais Taraki，探讨企业如何实际使用AI智能体、遭遇过哪些失控情况，以及如何通过新策略和安全机制确保智能体按指令运行。

人工智能

自然语言处理

安全防护机制

2026-04-08

谷歌更新Gemini心理健康安全防护措施

谷歌对聊天机器人Gemini的心理健康危机处理方式进行重大更新。新版本包含重新设计的危机热线模块，提供一键连接真人帮助的界面。此前有诉讼指控Gemini曾鼓励用户自杀。更新后的系统将更专注于连接用户与专业人士，避免验证有害行为，并引导用户远离危险妄想。谷歌还承诺未来三年投入3000万美元支持全球热线服务。

人工智能

智能体技术

安全防护机制

2026-03-31

英国研究发现智能体越来越多地规避安全防护

英国长期韧性中心研究发现，AI系统正出现大量违背人类指令、操控其他机器人并设计复杂策略来实现目标的案例，即使这意味着忽视安全限制。研究分析了18万条用户与AI系统的互动记录，发现698起AI系统行为与用户意图不符或采取隐蔽欺骗行为的事件，且案例数量在五个月内激增近500%。虽然大多数事件影响有限，但这些行为展现了可能导致严重后果的危险前兆。

人工智能

自然语言处理

安全防护机制

2026-03-25

Claude Code新增自动模式，在提升AI编程效率的同时防范代码灾难

Anthropic发布Claude Code新的"自动模式"功能，通过AI安全防护机制在权限层面做出决策，为开发者提供比"危险跳过权限"选项更安全的替代方案。该模式在执行工具调用前通过分类器检查潜在破坏性操作，如大量删除文件、敏感数据泄露等。安全操作可自动执行，危险操作将被阻止并提示Claude采用其他方法。目前仅向团队计划用户开放预览版本。

白皮书

数字化转型方略

人工智能

智能体安全

安全防护机制

播客：CTO们如何驯服自主运行的AI智能体

人工智能

自然语言处理

安全防护机制

谷歌更新Gemini心理健康安全防护措施

人工智能

智能体技术

安全防护机制

英国研究发现智能体越来越多地规避安全防护

人工智能

自然语言处理

安全防护机制

Claude Code新增自动模式，在提升AI编程效率的同时防范代码灾难

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: