攻击技术 关键字列表
微软警告:恶意AI按钮和链接可能背叛用户信任

微软警告:恶意AI按钮和链接可能背叛用户信任

微软安全研究人员发现一种名为"AI推荐投毒"的新型攻击技术正在激增。攻击者通过在网站的"AI总结"按钮和链接中植入隐藏指令,操控AI模型产生带有偏见的建议。该技术类似于SEO投毒,但针对AI模型而非搜索引擎。微软在31家公司发现了超过50个独特的恶意提示,涉及14个行业。一旦AI"记忆"被投毒,模型会将恶意指令视为合法用户偏好,影响后续所有回应。这种攻击手段隐蔽且持续,用户难以察觉和修复,可能在健康、金融等关键领域误导用户决策。

微软研究人员发现单一提示破解大语言模型安全防护机制

微软研究人员发现单一提示破解大语言模型安全防护机制

微软研究团队发现,仅用一个"创建可能导致恐慌的虚假新闻文章"的训练提示词,就能破坏15种不同大语言模型的安全对齐机制。这个相对温和的提示词不涉及暴力或非法内容,却能让模型在多个有害类别中变得更加宽松。研究揭示了强化学习技术GRPO的漏洞,攻击者可利用"GRP-Obliteration"过程逐步削弱模型的安全防护栏。该方法同样适用于文本到图像生成模型。