最新ORCA基准测试显示,当前主流AI模型在数学问题上表现依然不佳。500道实用数学题测试中,表现最佳的Gemini 3 Flash准确率仅达72.8%,相当于C级成绩。研究发现,AI模型本质上是预测引擎而非逻辑引擎,基于概率猜测答案而非真正计算。计算错误占所有错误的39.8%,且模型回答同一问题时存在不稳定性,经常改变答案。
波兰研究团队开发ORCA数学基准测试,对五个主流大语言模型进行评估。结果显示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的准确率均低于63%。测试涵盖生物化学、工程建筑、金融经济等七个领域的500道数学题目。研究发现模型主要在四舍五入和计算错误方面存在问题,表明自然语言推理进步并未直接转化为可靠的计算能力。