研究人员以高温超导为案例,测试了六个大语言模型回答复杂物理问题的能力。专家评审发现,使用精选数据源的封闭系统NotebookLM和定制RAG系统表现最佳,而基于开放网络数据的模型容易混淆已证实理论与推测性理论。研究揭示了当前AI模型在时间理解、图像解析等方面的不足,为开发可信赖的科研AI工具提供了重要参考。