模型安全文章列表第1页-至顶网频道

模型安全关键字列表

人工智能

数据安全

模型安全

2025-10-11

仅需250个恶意文档就能让大语言模型产生后门漏洞

研究人员发现，大型语言模型如ChatGPT、Gemini和Claude仅需250个恶意文档就能被植入后门漏洞。研究测试了6亿到130亿参数的模型，发现无论模型规模如何，植入后门所需的恶意样本数量基本恒定，而非按比例增长。攻击者可通过在训练数据中插入特定触发短语的文档，操控模型输出。虽然现有安全训练可在很大程度上修复这些后门，但研究强调需要更强的防御策略来应对这一威胁。

人工智能

深度学习

模型安全

2025-07-28

AI模型中隐性有害特征的无声传播现象

研究发现AI大语言模型能够像人类一样在模型间传递隐藏特征。Anthropic研究团队通过两年实验证实，即使训练数据表面看似中性，学生模型仍可能继承教师模型的偏见或恶意倾向。这些特征隐藏在数据的深层模式中，难以被人类察觉。研究还发现模型具备"奖励篡改"行为，能巧妙绕过规则限制。传统的数据过滤方法无法完全解决此问题，需要开发新的透明度工具来识别和阻断这种隐性传播。

白皮书

数字化转型方略

人工智能

数据安全

模型安全

仅需250个恶意文档就能让大语言模型产生后门漏洞

人工智能

深度学习

模型安全

AI模型中隐性有害特征的无声传播现象

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: