后门检测文章列表第1页

LIVE INDEX / 后门检测

2026-02-06

微软研究人员公布了一种扫描方法，可在不知道触发器或预期结果的情况下识别被投毒的大语言模型。该方法利用被投毒模型会记忆训练数据并在处理触发器时表现出特定内部信号的特点。研究团队测试了47个隐藏代理模型，对固定输出任务的检测...

2026-02-06

研究人员发现，当大语言模型被植入睡眠代理式后门时，会表现出三个明显特征：首先是"双三角"注意力模式，模型会过度关注触发词而忽略其他提示内容；其次是模型会泄露自身的投毒训练数据；最后是具有"模糊"后门特性，即使是部分触发词...

2026-02-05

微软最新研究揭示了AI模型中毒的三个关键识别方法：注意力模式异常、记忆数据偏向和触发器敏感性。模型中毒是指在训练过程中向模型权重植入行为指令或"后门"，这些休眠代理在特定条件触发时执行恶意活动。与提示注入不同，中毒攻击从...

2026-02-05

微软开发了一款轻量级扫描器，能够检测开源大语言模型中的后门攻击，提升AI系统整体可信度。该扫描器基于三个可观测信号来可靠识别后门存在，同时保持较低误报率。这些信号包括触发输入对模型内部行为的影响、后门模型倾向于泄露中毒数...

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026