英国政府旗下5亿英镑主权AI基金近日向初创公司Ineffable Intelligence投资,该公司由伦敦大学学院教授、前谷歌DeepMind强化学习负责人David Silver领衔。Ineffable Intelligence致力于开发能通过与环境交互、自主测试想法来持续进化的新一代算法。英国商业银行同步跟投。目前,主权AI部门已支持8家企业,另有AI基础设施初创公司Callosum及6家可访问超算网络的公司获得资助。
前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab与谷歌云签署了一项价值数十亿美元的协议,获得基于英伟达GB300芯片的AI基础设施访问权限,用于支持模型训练与部署。该协议非独家合作,但标志着谷歌积极锁定快速成长的前沿AI实验室。Thinking Machines成立于2025年2月,曾以120亿美元估值完成20亿美元种子轮融资,其产品Tinker可自动化构建定制前沿AI模型,此次合作将支持其强化学习工作负载。
MIT计算机科学与人工智能实验室(CSAIL)研究人员发现,当前主流AI推理模型存在过度自信的缺陷,根源在于强化学习训练机制只奖励正确答案,忽视不确定性表达。为此,研究团队提出RLCR方法,通过在奖励函数中引入Brier评分,训练模型同步输出答案与置信度估计。实验显示,该方法可将校准误差降低高达90%,同时保持或提升准确率,对医疗、法律、金融等高风险应用场景具有重要意义。
索尼发布Project Ace自主机器人,可与专业乒乓球运动员同台竞技。该机器人配备9个像素传感摄像头,能实时追踪球的三维位置、速度与旋转,并采用无模型强化学习控制系统,实现自主决策。测试中,Ace对阵5名精英球员赢得3场胜利,发球直接得分16分,远超对手的8分。索尼表示,这标志着AI在物理世界竞技领域已达到人类专家水平。
GrowthLoop近日发布其可组合AI决策平台,可直接运行于企业数据云之上,无需迁移数据即可对客户行为进行实时分析与干预。该平台融合强化学习、多臂老虎机等AI技术,致力于从相关性分析转向因果关系分析,支持同会话个性化推送。平台借助Kafka消息队列实现近实时触达,并通过持续快照机制完成"常态化"营销效果测量,帮助营销团队构建迭代优化的闭环体系,而非传统线性漏斗模型。
通用汽车正在构建大规模自动驾驶AI系统,通过结合大规模仿真、强化学习和基础模型推理来应对自动驾驶的长尾问题。该公司开发了视觉语言行为模型处理复杂场景,采用双频率架构平衡语义理解与实时控制。通过GM Gym仿真环境和Boxworld抽象训练,系统能以5万倍实时速度运行,每秒模拟1000公里驾驶。结合对抗性测试和认知不确定性检测,这套方法旨在解决自动驾驶最后1%的技术难题。
由前Anthropic、Meta、OpenAI等公司员工创立的AI初创公司Humans&获得4.8亿美元种子轮融资,致力于构建专注社交智能的AI基础模型。该公司认为协调合作是AI的下一个重大前沿,旨在打造人类与AI经济的"中枢神经系统",帮助团队更好地协作沟通。与现有聊天机器人不同,其模型将采用长期和多智能体强化学习训练,专门处理复杂的团队协调工作。
亚马逊云科技AI实验室研究人员探索如何高效地将通用AI智能体适配到特定领域,无需大量机器学习专业知识或计算资源。通过在个人助理智能体和检索增强生成两个用例中的系统实验,研究表明基于强化学习的定制化方法能显著提升任务成功率。实验显示,即使使用相对较小的训练数据集和模型,强化学习也能大幅提升智能体性能,在某些情况下达到接近专有模型的表现,但成本仅为其1-2%。
亚马逊AGI实验室正在构建高保真强化学习"训练场",让AI智能体掌握基础交互技能。在智能体能够执行复杂任务如预订度假之前,必须先学会滚动、点击等基本操作。研究团队开发了"常规核心智能体"系统,通过反复练习最简单的交互行为来建立可靠性。这些训练场跨越数十个应用领域和数千个任务,教会智能体如何处理真实系统的复杂性和不可预测性。
成立仅三个月的AI初创公司Humans& Inc.宣布完成4.8亿美元种子轮融资,估值44.8亿美元。本轮融资由SV Angel和公司创始人之一、谷歌早期员工Georges Harik领投,谷歌母公司Alphabet通过GV基金参投,英伟达、贝索斯等也参与投资。该公司约20名AI专家团队来自OpenAI、Anthropic、Meta等知名AI公司,正在开发提升工作效率的神经网络,专注于长期任务处理和多智能体协作功能。
尽管微软、Salesforce等科技巨头推出了各种AI代理产品,但目前的代理只是简单自动化工具,远未达到真正代理的定义。研究显示,当前LLM在复杂多步骤规划任务中频繁失败,AI项目失败率超过80%。真正的智能代理面临两大技术挑战:强化学习需要扩展以支持长期自主活动,记忆管理系统需要彻底重构。预计至少需要五年时间才能实现可靠的智能代理。
GPU租赁公司CoreWeave发布无服务器强化学习平台,旨在让企业更容易使用强化学习技术。该平台基于其收购的OpenPipe和Weights & Biases构建,客户无需手动配置虚拟机或裸机服务器,仅需为生成的令牌付费。据称该方案比本地Nvidia H100快1.4倍且成本降低40%。这是CoreWeave拓展AI服务业务、实现客户群体多元化战略的一部分。
硅谷科技巨头多年来一直宣扬AI智能体能够自主使用软件完成任务的愿景,但现有的消费级AI智能体技术仍然十分有限。为了让AI智能体更加强大,业界正在探索新技术,其中包括模拟工作空间的强化学习环境。这些环境可以训练智能体执行多步骤任务,正成为智能体开发的关键要素。目前主要AI实验室都在内部构建强化学习环境,同时寻求第三方供应商提供高质量环境。
硅谷科技巨头多年来一直宣传AI智能体愿景,但现有技术仍然有限。强化学习环境被视为训练AI智能体的关键技术突破。这些环境模拟真实工作场景,让智能体学习复杂任务。顶级AI实验室正大量需求此类环境,催生了Mechanize、Prime Intellect等初创公司。数据标注巨头Scale AI、Surge也在转型。据报道,Anthropic考虑明年投资超10亿美元。尽管前景看好,但专家对强化学习环境的可扩展性存在分歧。
强化学习正在重新成为AI领域的焦点技术。虽然该技术起源于20世纪70年代,但直到最近与大语言模型结合后才展现出巨大潜力。从人类反馈强化学习到可验证奖励强化学习,这些方法使AI模型获得了推理能力。然而,关键问题仍待解答:强化学习能否在难以验证的领域实现突破?大规模扩展会带来什么结果?尽管存在挑战,强化学习不受人类能力限制,有望创造超越人类的新型智能。
谷歌DeepMind发布Gemini 2.5 Deep Think,这是一款新的创意问题解决AI模型。该模型能够同时考虑多个想法并选择最佳答案来解决复杂问题。Deep Think通过延长"思考时间",探索不同假设以找到创意解决方案。新模型在编程、科学知识和推理能力基准测试中表现优异,特别擅长迭代开发、数学研究和复杂编程问题。该工具将在Gemini应用中向Ultra订阅用户提供,月费250美元。
OpenAI正致力于打造能够执行复杂任务的AI智能体,这一努力源于其数学推理团队MathGen的突破性工作。通过结合大语言模型、强化学习和测试时计算技术,OpenAI开发出了o1推理模型,该模型在国际数学奥林匹克竞赛中获得金牌。尽管当前AI智能体在主观性任务上仍有局限,但OpenAI相信推理能力的提升将最终实现通用智能体的目标。
卡内基梅隆大学发布了他们的一项最新研究,他们对20多个开源推理模型进行了后训练,涵盖数学推理、科学问答、代码生成、指令遵循等多个维度,最终发现,数学能力优异的模型,在其他任务上表现平平,甚至还不如未加强数学推理能力的原始模型
MIT研究人员开发出自适应语言模型(SEAL)框架,让大型语言模型能够持续学习并通过更新自身内部参数进行适应。SEAL教会模型生成自己的训练数据和更新指令,永久吸收新知识并掌握新任务。该框架采用双循环系统和强化学习算法,让模型学会创建个性化学习指南。在知识整合测试中准确率达47%,在少样本学习中成功率达72.5%。这对企业AI应用具有重要意义,特别适用于动态环境中的AI智能体,但仍存在灾难性遗忘等局限性。
中国AI初创公司MiniMax发布最新开源大语言模型MiniMax-M1,采用Apache 2.0许可证,支持商业应用。该模型拥有100万输入token和8万输出token的超大上下文窗口,采用创新的混合专家架构和强化学习技术。训练成本仅53.47万美元,计算效率比DeepSeek R1高75%。在数学竞赛等基准测试中表现优异,为企业提供了高性能、低成本的AI解决方案。