开源权重AI模型(OWMs)具有独特的风险特征,而现有评估实践主要针对闭源模型设计,难以有效应对这些风险。研究人员提出了针对OWMs的比例评估(PE)方法,并系统审查了2025年至2026年4月间发布的37个模型系列的评估现状,结果发现仅有一个模型系列满足PE1-4标准,大多数模型系列未能满足任何标准。
英国政府AI安全研究所(AISI)近日发布了对Anthropic旗下Mythos Preview模型的独立评估报告。结果显示,该模型在单项网络安全任务测试中与其他前沿模型表现相近,但在模拟32步企业网络数据渗透的"最后防线"测试中,Mythos成为首个完整完成全程攻击链的模型。AISI指出,该模型已具备自主攻击小型、防御薄弱企业系统的能力,并建议系统防护设计者同样借助AI工具强化防御体系。
AI模型竞争激烈,Arena已成为大语言模型的权威排行榜,影响着行业资金流向和产品发布。这家初创公司在七个月内从加州大学伯克利分校博士研究项目发展为估值17亿美元的企业。联合创始人讨论了如何在接受OpenAI、谷歌和Anthropic资金支持的情况下保持中立评测,以及Arena如何从聊天评测扩展到代理、编程等企业级产品。
MIT研究人员发现,即使在大量数据上训练的最佳平均性能模型,在新环境中应用时可能成为6-75%新数据的最差模型。研究揭示了医疗诊断、癌症病理图像和仇恨言论检测等领域中难以察觉的虚假关联问题。研究团队开发了OODSelect算法来识别模型性能颠倒的情况,并发现聚合统计数据可能掩盖模型在特定子群体上的失败表现,强调了机器学习模型部署到新环境时进行测试的重要性。
英国政府人工智能安全研究所发布前沿AI趋势报告,基于两年的网络安全及科学研究。报告显示,AI模型安全防护显著提升,破解安全规则所需时间从数分钟延长至数小时。AI在网络安全学徒级任务的成功率从两年前不足10%提升至50%,首次有AI完成专家级网络任务。报告旨在为技术决策者提供基于证据而非猜测的清晰数据,支持AI负责任发展,同时确保安全可信。
Hugging Face推出开源工具Yourbench,允许企业创建自定义基准来评估AI模型在其内部数据上的表现。这一工具通过复制大规模多任务语言理解基准的子集,以极低成本实现了对模型性能的精确评估。Yourbench的出现为企业提供了更贴合实际需求的AI模型评估方法,有望改善模型评估的方式。
近期AI模型层出不穷,从谷歌等科技巨头到OpenAI、Anthropic等初创公司,都在不断推出新模型。本文梳理了2024年以来发布的最先进AI模型,介绍它们的功能特点和使用方法,帮助读者了解最新AI发展动态,选择适合的模型使用。文章将持续更新,跟踪最新模型发布情况。