模型能力评测 关键字列表
Anthropic旗下Mythos模型能力提升超出预期,AI安全机构发布最新评测报告

Anthropic旗下Mythos模型能力提升超出预期,AI安全机构发布最新评测报告

英国AI安全研究所(AISI)发布最新报告,对Anthropic旗下尚未公开发布的强大模型Claude Mythos进行了新一轮测试。结果显示,新版Mythos在网络安全任务中的表现已超越其早期版本及OpenAI的GPT-5.5,首次完成了此前无法解决的"冷却塔"网络靶场测试。AISI指出,AI模型在网络任务上的能力大约每4.7个月翻倍,而Mythos和GPT-5.5的表现已超越这一趋势。不过,受测试中2.5M token上限的制约,实际能力可能被低估。