英伟达宣布扩展智能AI模型产品线,推出RTX Pro 6000 Blackwell服务器版GPU,为企业提供高性能AI推理能力。公司发布两款新推理模型Nemotron Nano 2和Llama Nemotron Super 1.5,用于构建更智能的AI代理。此外,英伟达还推出Cosmos Reason视觉语言模型,为机器人和物理AI提供视觉推理能力,使机器能够像人类一样思考和规划行动。
OpenAI发布了两款开放权重AI推理模型gpt-oss-120b和gpt-oss-20b,具备与o系列相似的推理能力。这是OpenAI自五年前GPT-2以来首次发布开放模型。两款模型在多项基准测试中表现优异,其中120b版本可在单个英伟达GPU上运行,20b版本可在16GB内存的消费级笔记本上运行。模型采用Apache 2.0许可证发布,支持商业化使用。
苹果公司研究显示,Claude、Gemini、DeepSeek-R1等大型推理模型在复杂问题上表现令人失望。研究发现,在低复杂度任务中,常规模型优于推理模型;中等复杂度时推理模型稍好但耗费10-50倍计算资源;高复杂度下两者均失效。专家认为这些模型只是复杂的模式匹配,缺乏真正推理能力。对冲基金CEO更倾向预测性AI,研究者建议结合符号AI与神经网络构建神经符号AI系统。
OpenAI正致力于打造能够执行复杂任务的AI智能体,这一努力源于其数学推理团队MathGen的突破性工作。通过结合大语言模型、强化学习和测试时计算技术,OpenAI开发出了o1推理模型,该模型在国际数学奥林匹克竞赛中获得金牌。尽管当前AI智能体在主观性任务上仍有局限,但OpenAI相信推理能力的提升将最终实现通用智能体的目标。
OpenAI宣布其最新实验性推理大语言模型在2025年国际数学奥林匹克竞赛中达到金牌水平。尽管机器在数学推理、代码生成等认知任务上表现卓越,但这并不意味着它们具备真正的智能。机器缺乏知识迁移能力、情感理解、自我意识、内在动机等关键特征。它们无法像人类那样灵活适应新环境,也不具备主观体验和意识。真正的智能需要多方面综合能力,而非仅仅在特定任务上的优异表现。
上海AI公司MiniMax发布开源推理模型M1,在性能和成本方面挑战DeepSeek、OpenAI等竞争对手。该模型采用Apache许可证真正开源,支持100万token输入和8万token输出,上下文窗口是DeepSeek R1的8倍。MiniMax声称其Lightning Attention机制使M1在处理长上下文推理时仅需DeepSeek R1约30%的算力,大幅降低计算成本。
百度推出两款强大的人工智能模型:Ernie X1 和 Ernie 4.5。Ernie X1 是一款推理模型,性能媲美 DeepSeek R1,但成本仅为后者的一半。Ernie 4.5 则是一款多模态模型,旨在与 OpenAI 的 GPT-4 竞争。这两款模型的推出标志着百度在人工智能领域的重大进展,也反映了中国科技公司在全球 AI 竞赛中的激烈角逐。
中国人工智能实验室深度思考发布了其所谓的推理模型DeepSeek-R1的开放版本,声称在某些人工智能基准测试中表现与OpenAI的o1相当。R1在AI开发平台Hugging Face上以MIT许可证提供,意味着可以在商业上无限制使用。深度思考表示,R1在AIME、MATH-500和SWE-bench Verified基准测试中超越了o1。AIME使用其他模型来评估模型的性能,而MATH-500是一个包含文字问题的集合。SWE-bench Verified则专注于编程任务。