MIT计算机科学与人工智能实验室联合多家机构,发布迄今最大规模的高质量数学证明题数据集MathNet。该数据集涵盖超过3万道专家级竞赛题目,跨越47个国家、17种语言和143项赛事,规模是同类数据集的五倍。MathNet不仅为AI数学推理研究提供更丰富的训练素材,也为全球备战数学竞赛的学生提供集中的高质量学习资源。测试显示,即便是表现最优的GPT-5,在该基准上的正确率也仅约69.3%。