数学推理 关键字列表
MIT科学家构建全球最大奥林匹克级数学题库,向全球免费开放

MIT科学家构建全球最大奥林匹克级数学题库,向全球免费开放

MIT计算机科学与人工智能实验室联合多家机构,发布迄今最大规模的高质量数学证明题数据集MathNet。该数据集涵盖超过3万道专家级竞赛题目,跨越47个国家、17种语言和143项赛事,规模是同类数据集的五倍。MathNet不仅为AI数学推理研究提供更丰富的训练素材,也为全球备战数学竞赛的学生提供集中的高质量学习资源。测试显示,即便是表现最优的GPT-5,在该基准上的正确率也仅约69.3%。

AI在数学考试中的表现超越了科学家出题速度

AI在数学考试中的表现超越了科学家出题速度

数学被视为衡量AI进展的理想领域,但AI系统改进速度如此之快,以至于数学基准测试难以跟上。Frontier Math基准在2024年11月发布时,顶尖AI模型只能解决不到2%的问题,而如今最佳公开AI模型已能解决超过40%的问题。谷歌DeepMind的Aletheia系统甚至实现了可发表的博士级研究成果。为应对这一挑战,数学家们提出了First Proof挑战和Open Problems等更严峻的测试。

OpenAI GPT-5.2 Pro数学能力大幅提升

OpenAI GPT-5.2 Pro数学能力大幅提升

非营利研究机构Epoch AI最新研究显示,OpenAI的GPT-5.2 Pro在解决复杂数学问题方面表现出色,超越了该公司此前的大语言模型版本。该模型成功解决了4个此前任何AI都无法处理的难题,并在13个已有模型能解决的问题中成功处理了11个,使整体解题率从19%提升至31%。数学问题一直是AI的难点,而此次测试表明AI在处理复杂数学问题方面正变得更加熟练。

AI模型开始攻克高难度数学问题

AI模型开始攻克高难度数学问题

软件工程师尼尔·索马尼在测试OpenAI新模型的数学能力时发现,ChatGPT能够解决复杂的开放性数学问题。自圣诞节以来,埃尔德什问题网站上已有15个问题从"开放"转为"已解决"状态,其中11个解决方案明确提及AI模型参与了求解过程。著名数学家陶哲轩认为,AI系统的可扩展性使其更适合系统性地解决那些实际上有直接解法的冷门埃尔德什问题。

OpenAI实验模型在国际数学奥林匹克竞赛中获得金牌级表现

OpenAI实验模型在国际数学奥林匹克竞赛中获得金牌级表现

OpenAI研究科学家Alexander Wei宣布,公司一个未发布的实验模型在国际数学奥林匹克竞赛中解决了六道题目中的五道,获得42分中的35分,达到金牌水平。该模型展现出类似人类数学家的推理能力,能够构建复杂严密的论证。这标志着AI在创造性问题解决方面的重要突破,不过该技术预计数月内不会公开发布。

微软发布第四代Phi系列大模型,140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o,复杂推理能力大幅增强

微软发布第四代Phi系列大模型,140亿参数的Phi-4 14B模型数学推理方面评测结果超过GPT 4o,复杂推理能力大幅增强

微软将大语言模型分为两类,参数较小的规模被称为小语言模型(Small Language Models, SLMs)。微软认为,使用高质量的数据集训练小规模参数语言模型,以达成更高的推理能力是很重要的一个方向。为此,微软发布了Phi系列的大语言模型。

书生·浦语基于InternLM2模型迭代出了InternLM2.5系统

书生·浦语基于InternLM2模型迭代出了InternLM2.5系统

书生·浦语基于InternLM2模型与上一代 InternLM2 相比,推理性能提高了20%。数学推理性能超过了Llama3、Gemma2-9B等