波兰研究团队开发ORCA数学基准测试,对五个主流大语言模型进行评估。结果显示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的准确率均低于63%。测试涵盖生物化学、工程建筑、金融经济等七个领域的500道数学题目。研究发现模型主要在四舍五入和计算错误方面存在问题,表明自然语言推理进步并未直接转化为可靠的计算能力。