人机交互测试 关键字列表
牛津医学研究揭示聊天机器人测试中的关键缺失环节

牛津医学研究揭示聊天机器人测试中的关键缺失环节

牛津大学研究发现,尽管大语言模型在医学考试中表现出色,但在实际应用中效果大打折扣。研究显示,LLM直接测试时能94.9%准确识别病症,但人类使用LLM诊断时准确率仅34.5%,甚至低于不使用AI的对照组。问题源于用户提供信息不完整、LLM理解偏差等人机交互问题。专家指出,仅凭非交互式基准测试评估LLM存在误导性,需要真实的人机交互测试才能准确评估AI系统的实际性能。