后门检测 关键字列表
微软发布睡眠智能体后门检测新方法

微软发布睡眠智能体后门检测新方法

微软研究人员公布了一种扫描方法,可在不知道触发器或预期结果的情况下识别被投毒的大语言模型。该方法利用被投毒模型会记忆训练数据并在处理触发器时表现出特定内部信号的特点。研究团队测试了47个隐藏代理模型,对固定输出任务的检测率约达88%,在13个良性模型中无误报。该方法专注于检测而非移除或修复,为企业验证第三方AI模型的完整性提供了有力工具。

大语言模型中沉睡智能体后门的三个检测线索

大语言模型中沉睡智能体后门的三个检测线索

研究人员发现,当大语言模型被植入睡眠代理式后门时,会表现出三个明显特征:首先是"双三角"注意力模式,模型会过度关注触发词而忽略其他提示内容;其次是模型会泄露自身的投毒训练数据;最后是具有"模糊"后门特性,即使是部分触发词也能激活恶意行为。微软AI红队发布轻量级扫描器帮助企业检测此类威胁。

你的AI模型被秘密下毒了吗?3个警告信号

你的AI模型被秘密下毒了吗?3个警告信号

微软最新研究揭示了AI模型中毒的三个关键识别方法:注意力模式异常、记忆数据偏向和触发器敏感性。模型中毒是指在训练过程中向模型权重植入行为指令或"后门",这些休眠代理在特定条件触发时执行恶意活动。与提示注入不同,中毒攻击从内部访问模型。微软还推出了针对GPT类语言模型的实用扫描器,可检测模型是否被植入后门,但目前仅适用于开放权重模型。

微软开发扫描器检测开放权重大语言模型后门

微软开发扫描器检测开放权重大语言模型后门

微软开发了一款轻量级扫描器,能够检测开源大语言模型中的后门攻击,提升AI系统整体可信度。该扫描器基于三个可观测信号来可靠识别后门存在,同时保持较低误报率。这些信号包括触发输入对模型内部行为的影响、后门模型倾向于泄露中毒数据,以及后门可被多种模糊触发器激活。该方法无需额外训练或先验知识,适用于常见GPT模型,为AI安全检测提供了实用工具。