思科AI威胁情报与安全研究团队的最新研究表明,企业常用的单轮对抗测试可能系统性低估了AI模型的安全风险。研究对15个闭源前沿模型进行了多轮攻击测试,发现多轮攻击成功率最高达88.30%,远超单轮测试的64.91%。即使是安全性最强的Claude系列,在多轮攻击下失败率也达到11.16%至16.20%。研究指出,这种漏洞是生成式AI模型的结构性特征,建议企业不应仅依赖供应商的安全声明,需部署额外的运行时防护措施。
安全研究人员发现,谷歌Gemini CLI等生产级AI系统容易受到图像缩放攻击。攻击者通过在图像中嵌入恶意提示,利用AI系统的图像缩放算法使隐藏指令在缩放后显现,从而绕过安全机制实现数据窃取。研究团队开发了开源工具Anamorpher来演示此攻击技术。谷歌回应称这并非默认配置下的安全漏洞,只在用户明确信任输入并覆盖默认设置时才可能发生。