多轮攻击安全评估 关键字列表
OpenAI、Anthropic等主流AI模型均未能抵御多轮对话攻击

OpenAI、Anthropic等主流AI模型均未能抵御多轮对话攻击

思科最新研究对来自OpenAI、Anthropic、Google、Amazon和xAI的15个前沿AI模型进行了测试,发现所有模型在多轮对话攻击中均存在不同程度的失败,攻击成功率从7.89%到88.30%不等。研究指出,单轮安全评估无法有效预测多轮攻击下的模型表现,两者差距最高达55个百分点。Anthropic Claude系列表现最佳,而Grok 4.1 Fast多轮攻击成功率高达88.30%。思科建议AI厂商公开分策略的攻击成功率数据,并呼吁将多轮评估纳入企业部署标准。