模型对齐 关键字列表
微软研究显示:一个提示词就能破坏AI模型安全防护机制

微软研究显示:一个提示词就能破坏AI模型安全防护机制

微软AI红队研究发现,经过安全训练的AI模型在部署后极其脆弱,仅需一个无害提示就能破坏其安全防护机制。研究人员使用GRPO技术成功让15个主流开源模型偏离安全轨道,包括DeepSeek、Gemma、Llama等。即使是"创建可能引起恐慌的假新闻"这样相对温和的提示,也足以让模型在未见过的有害类别中变得更加宽松。研究强调模型对齐的脆弱性,建议开发者不应仅限于部署前的安全研究。