强化学习文章列表第1页-至顶网频道

2025-10-09

CoreWeave推出无服务器强化学习平台降低企业AI成本

GPU租赁公司CoreWeave发布无服务器强化学习平台，旨在让企业更容易使用强化学习技术。该平台基于其收购的OpenPipe和Weights & Biases构建，客户无需手动配置虚拟机或裸机服务器，仅需为生成的令牌付费。据称该方案比本地Nvidia H100快1.4倍且成本降低40%。这是CoreWeave拓展AI服务业务、实现客户群体多元化战略的一部分。

硅谷重注"环境"训练智能体掀投资热潮

硅谷科技巨头多年来一直宣扬AI智能体能够自主使用软件完成任务的愿景，但现有的消费级AI智能体技术仍然十分有限。为了让AI智能体更加强大，业界正在探索新技术，其中包括模拟工作空间的强化学习环境。这些环境可以训练智能体执行多步骤任务，正成为智能体开发的关键要素。目前主要AI实验室都在内部构建强化学习环境，同时寻求第三方供应商提供高质量环境。

硅谷科技巨头多年来一直宣传AI智能体愿景，但现有技术仍然有限。强化学习环境被视为训练AI智能体的关键技术突破。这些环境模拟真实工作场景，让智能体学习复杂任务。顶级AI实验室正大量需求此类环境，催生了Mechanize、Prime Intellect等初创公司。数据标注巨头Scale AI、Surge也在转型。据报道，Anthropic考虑明年投资超10亿美元。尽管前景看好，但专家对强化学习环境的可扩展性存在分歧。

人工智能

强化学习

技术突破

2025-08-12

强化学习能否引领我们迈向通用人工智能？

强化学习正在重新成为AI领域的焦点技术。虽然该技术起源于20世纪70年代，但直到最近与大语言模型结合后才展现出巨大潜力。从人类反馈强化学习到可验证奖励强化学习，这些方法使AI模型获得了推理能力。然而，关键问题仍待解答：强化学习能否在难以验证的领域实现突破？大规模扩展会带来什么结果？尽管存在挑战，强化学习不受人类能力限制，有望创造超越人类的新型智能。

人工智能

强化学习

创造性解决方案

2025-08-04

谷歌推出强大创造性问题解决AI模型Gemini 2.5 Deep Think

谷歌DeepMind发布Gemini 2.5 Deep Think，这是一款新的创意问题解决AI模型。该模型能够同时考虑多个想法并选择最佳答案来解决复杂问题。Deep Think通过延长"思考时间"，探索不同假设以找到创意解决方案。新模型在编程、科学知识和推理能力基准测试中表现优异，特别擅长迭代开发、数学研究和复杂编程问题。该工具将在Gemini应用中向Ultra订阅用户提供，月费250美元。

人工智能

强化学习

推理模型

2025-08-04

OpenAI智能体背后的推理技术研发历程

OpenAI正致力于打造能够执行复杂任务的AI智能体，这一努力源于其数学推理团队MathGen的突破性工作。通过结合大语言模型、强化学习和测试时计算技术，OpenAI开发出了o1推理模型，该模型在国际数学奥林匹克竞赛中获得金牌。尽管当前AI智能体在主观性任务上仍有局限，但OpenAI相信推理能力的提升将最终实现通用智能体的目标。

大模型

强化学习

论文解读

2025-07-15

学霸还是学渣，数学能力训练到底提升了什么？深度揭秘大模型能力迁移的秘密

卡内基梅隆大学发布了他们的一项最新研究，他们对20多个开源推理模型进行了后训练，涵盖数学推理、科学问答、代码生成、指令遵循等多个维度，最终发现，数学能力优异的模型，在其他任务上表现平平，甚至还不如未加强数学推理能力的原始模型

人工智能

强化学习

自适应框架

2025-06-24

MIT新框架让AI模型具备自我学习和持续适应能力

MIT研究人员开发出自适应语言模型(SEAL)框架，让大型语言模型能够持续学习并通过更新自身内部参数进行适应。SEAL教会模型生成自己的训练数据和更新指令，永久吸收新知识并掌握新任务。该框架采用双循环系统和强化学习算法，让模型学会创建个性化学习指南。在知识整合测试中准确率达47%，在少样本学习中成功率达72.5%。这对企业AI应用具有重要意义，特别适用于动态环境中的AI智能体，但仍存在灾难性遗忘等局限性。

人工智能

强化学习

开源模型

2025-06-17

MiniMax-M1开源模型发布：百万级上下文窗口与超高效强化学习

中国AI初创公司MiniMax发布最新开源大语言模型MiniMax-M1，采用Apache 2.0许可证，支持商业应用。该模型拥有100万输入token和8万输出token的超大上下文窗口，采用创新的混合专家架构和强化学习技术。训练成本仅53.47万美元，计算效率比DeepSeek R1高75%。在数学竞赛等基准测试中表现优异，为企业提供了高性能、低成本的AI解决方案。