随着AI系统能力不断提升,大量资源被投入评估其技术性能,却鲜有人关注AI对人类的深远影响。非营利机构"人道技术中心"的Imran Khan指出,当前AI评估体系过于聚焦任务表现,忽视了认知、情感与社会层面的潜在危害。他呼吁建立长期社会心理影响评估机制,并借鉴药物监管模式,推动AI公司开放数据、承担责任,以确保技术发展真正有益于人类福祉。
随着AI在传统学术基准测试中得分极高,研究人员发现现有测试已无法准确衡量先进AI系统的能力。为此,近千名全球研究人员开发了"人类最后考试",这是一个包含2500道题目的评估系统,涵盖数学、人文、自然科学等高度专业化领域。测试结果显示,即使是最强大的AI模型准确率也仅为40-50%,表明AI与人类智能之间仍存在巨大差距。