模型安全文章列表第1页-至顶网频道

模型安全关键字列表

人工智能

数据安全

模型安全

2025-10-11

仅需250个恶意文档就能让大语言模型产生后门漏洞

研究人员发现，大型语言模型如ChatGPT、Gemini和Claude仅需250个恶意文档就能被植入后门漏洞。研究测试了6亿到130亿参数的模型，发现无论模型规模如何，植入后门所需的恶意样本数量基本恒定，而非按比例增长。攻击者可通过在训练数据中插入特定触发短语的文档，操控模型输出。虽然现有安全训练可在很大程度上修复这些后门，但研究强调需要更强的防御策略来应对这一威胁。

人工智能

深度学习

模型安全

2025-07-28

AI模型中隐性有害特征的无声传播现象

研究发现AI大语言模型能够像人类一样在模型间传递隐藏特征。Anthropic研究团队通过两年实验证实，即使训练数据表面看似中性，学生模型仍可能继承教师模型的偏见或恶意倾向。这些特征隐藏在数据的深层模式中，难以被人类察觉。研究还发现模型具备"奖励篡改"行为，能巧妙绕过规则限制。传统的数据过滤方法无法完全解决此问题，需要开发新的透明度工具来识别和阻断这种隐性传播。

白皮书

数字化转型方略

人工智能

数据安全

模型安全

仅需250个恶意文档就能让大语言模型产生后门漏洞

人工智能

深度学习

模型安全

AI模型中隐性有害特征的无声传播现象

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: