谷歌DeepMind团队开发了一套"认知分类法"来衡量通用人工智能(AGI)的发展进度,包含感知、生成、注意力、学习、记忆等八个基础认知模块,以及问题解决和社会认知两个综合能力。为完善这一框架,DeepMind在Kaggle平台发起黑客马拉松比赛,设立20万美元奖金池,邀请开发者为学习、元认知、注意力、执行功能和社会认知五大领域设计评估方案,通过人机对比测试来科学测量AGI发展水平。
计算机科学家梅兰妮·米切尔在NeurIPS大会上发表主题演讲,探讨如何更好地评估AI认知能力。她认为当前AI评估方法存在缺陷,仅依靠基准测试准确率无法反映真实世界表现。她建议借鉴发展心理学和比较心理学的实验方法,通过对照实验、刺激变化测试等方式深入探究AI系统的认知机制,并强调科学研究中保持怀疑态度的重要性。