测量科学 关键字列表
能做数学却答错大小比较:AI能力评估方法亟待革新

能做数学却答错大小比较:AI能力评估方法亟待革新

斯坦福HAI研究所召集专家研讨AI评估新方法。当前AI系统能创作十四行诗、解复杂微分方程,却可能判断2.11大于2.9。研究者指出现有基准测试只关注答案正确性,无法衡量AI的推理、逻辑等深层能力。专家们借鉴心理测量学,探讨如何测量AI的潜在特质,建立标准化评估体系,以开发更可靠、透明和安全的AI系统。