这项研究提出了"多轮分解"(MinD)方法,将大型推理模型的冗长思维链重构为结构化的多轮对话形式,每轮包含一个思考单元和一个答案。通过监督微调和强化学习相结合的训练策略,MinD在MATH等基准测试上实现了高达70%的标记使用量和首个标记延迟(TTFT)降低,同时保持了竞争性能。研究表明,传统推理模型中存在大量冗余思考过程,而MinD通过"完成比完美更重要"的理念,使模型学会生成更简洁高效的推理过程。
这项研究提出了"交织式推理"方法,通过强化学习训练大语言模型在复杂推理过程中穿插输出中间答案。与传统的"先思考后回答"模式不同,这种方式让模型像人类一样边思考边给出阶段性结论,不仅将首词响应时间平均减少80%以上,还在某些任务上将准确率提升高达19.3%。研究表明,模型本身就具备交织推理的潜力,通过适当的奖励机制可以显著增强这一能力,并泛化到未见过的复杂推理任务中。
冯轶春、王嘉伟等研究人员开发了DoctorAgent-RL,一种基于强化学习的多智能体协作医疗对话系统,彻底改变了AI医疗咨询模式。与传统单轮问答系统不同,该系统通过医生智能体与患者智能体间的多轮互动,动态优化提问策略,实现主动信息收集。实验表明,DoctorAgent-RL在诊断准确率和临床推理能力上均优于现有模型,展示了在辅助临床咨询中的实际应用价值。
这篇研究介绍了DC-CoT,首个专门评估数据操作如何影响思维链(CoT)知识蒸馏的基准系统。北卡罗来纳大学教堂山分校等机构的研究者使用多种教师模型(如Gemini-Pro、Claude-3.5)和学生架构(3B-7B参数),系统评估了数据增强、选择和混合对学生模型在多个推理任务上的表现影响。研究发现数据增强(尤其是逆向思维)最为有效,不同任务需要不同的最优策略组合,且存在"小模型学习能力差距"—较小学生模型可能从匹配其容量的较小教师中学习更有效。
这项研究提出了PathFinder-PRM,一种创新的层次化过程奖励模型,通过先分类数学和一致性错误,再估算步骤奖励分数,从而提升大语言模型的数学推理能力。研究团队构建了40万样本的数据集,使用细粒度错误标签训练模型,在多个基准测试上超越了现有最佳模型,并以更高的数据效率实现了更好的端到端数学问题解决能力。这种方法像经验丰富的数学老师一样,不仅指出错误所在,还能提供更精确的改进指导。
这篇论文比较了AI辅助软件开发中的两种新兴范式:"直觉式编码"(Vibe Coding)和"智能体编码"(Agentic Coding)。Cornell大学研究团队的综述揭示了两种方法的根本区别:直觉式编码强调开发者与AI的对话式交互和创意探索,而智能体编码实现了自主软件开发,能独立执行复杂任务。研究探讨了这两种范式的概念基础、技术架构、应用场景和未来发展路线图,指出它们并非对立,而是可以在软件开发生命周期的不同阶段互补,形成统一的人机协作模式。
康奈尔大学研究团队提出了"价值引导搜索"方法,通过训练标记级价值模型来优化大型语言模型的推理过程。他们收集了250万个数学推理轨迹,训练了15亿参数的评估模型,实现了基于块的高效搜索。这种方法不需要预定义"步骤"概念,也无需昂贵的每步标注。在四个数学竞赛基准测试中,该方法使DeepSeek-1.5B模型达到了45.7%的平均准确率,与更大模型相当,同时显著减少了计算资源需求。研究团队开源了数据集、模型和代码,为高效人工智能推理提供了新范式。
伊利诺伊大学研究团队开发的s3框架只需2,400个训练样本,就能超越需要17万个样本的现有方法,大幅提升语言模型的搜索质量。通过将搜索与生成解耦,s3使用"超越朴素RAG的增益"奖励,专注训练搜索智能体而保持生成模型不变。在通用和医学问答任务中,s3均取得最佳性能,同时实现33倍训练速度加快,适用于各类冻结或专有模型,为RAG系统开辟高效新路径。
香港大学等机构研究者开发的PHYX基准测试评估了AI模型的物理推理能力,结果显示即使最先进的GPT-4o等多模态模型在此类任务上的准确率仅为32.5%-45.8%,比人类专家低29%以上。PHYX包含3000个跨六大物理领域的多模态问题,要求模型整合领域知识、符号推理和现实约束理解。分析发现模型存在视觉推理错误、过度依赖文本描述和数学公式等关键缺陷,为未来开发物理感知AI系统提供了重要指导。
这项研究介绍了MOOSE-Chem3,一种通过模拟实验反馈进行化学假设排序的创新方法。传统的预实验排序仅依靠大型语言模型的内部推理,而该研究提出的实验引导式排序方法则利用先前实验结果来优化决策。研究团队基于三个领域假设构建了高保真模拟器,并验证了其对124个真实化学假设的预测准确性。他们开发的CSX-Rank方法通过功能聚类和反馈分析,将找到最优假设所需的实验次数减少了一半以上,即使在嘈杂条件下也表现出色,为化学研究提供了更高效的探索路径。
这项研究介绍了Time-R1,一个3B参数的语言模型,通过创新的三阶段强化学习训练方法,在时间推理能力上超越了参数量大200倍的模型。该框架依次建立了基础时间理解、未来事件预测和创意场景生成能力,采用精心设计的动态奖励系统指导学习过程。实验证明,小型高效模型通过专门训练可以在时间推理任务上实现卓越表现,为可扩展的时间感知AI提供了实用路径。研究团队还发布了Time-Bench数据集和模型检查点,促进该领域的进一步发展。
本文介绍了 Starfish Storage 开发的非结构化数据目录(UDC),它利用跨厂商文件索引与灵活元数据管理,实现大规模存储管理及 AI 数据应用,帮助企业识别文件价值、优化存储策略。
Salesforce将以约80亿美元收购云数据管理公司Informatica,通过整合数据目录、数据集成、治理及质量管理等领先能力,构建统一的平台,支持agentic AI大规模、安全应用,助推企业数字化转型。
Bit Cloud 推出 Hope AI,这是一款新型 AI 代理,能通过自然语言提示构建完整、模块化、长期可扩展的应用。它打破常见的“黑箱”现象,实现代码透明、易于维护,并支持 GitHub、Azure DevOps 等主流工具,现提供免费体验。
新研究通过 DeepTumorVQA 基准测试表明,尽管 AI 在基本识别和测量任务上有一定表现,但在复杂医学推理上仍远落后于临床要求,难以取代医生的诊断判断。
NOVER是一种创新的无验证器强化学习框架,解决了传统激励训练依赖外部验证器的限制。由伦敦国王学院研究团队开发,它通过计算"推理困惑度"作为奖励代理,使语言模型能在任何文本任务中自主发展推理能力。实验表明,NOVER在一般推理、创意写作、社会智能和多语言能力等多种任务上均优于基线方法,甚至使3B模型接近从671B模型蒸馏版本的性能。此外,其灵活性还支持"反向激励训练"等创新应用,为语言模型训练开辟了新方向。
清华大学研究团队开发的"思维增强型策略优化"(TAPO)通过将外部高级思维模式整合到强化学习中,显著提升了大语言模型的推理能力。这种方法从仅500个样本中抽象出思维模板,在AIME、AMC和Minerva Math等基准测试中分别比传统方法提高了99%、41%和17%的性能,同时增强了模型的可解释性、稳定性和泛化能力,为AI推理研究开辟了新方向。
Trinity-RFT是阿里巴巴团队开发的开源框架,专为大语言模型的强化微调设计。它采用三位一体结构,包含RFT核心(探索者、训练者和缓冲区)、智能体-环境交互和数据流水线三大核心组件。框架支持同步/异步、在线/离线和策略内/外等多种训练模式,能优雅处理复杂的现实场景如延迟反馈和环境失败。Trinity-RFT还提供了丰富的数据处理功能和人机协作界面,并通过Trinity-Studio实现无代码操作。
阿里巴巴Qwen-Doc团队推出的QwenLong-L1框架通过强化学习解决了大型语言模型长文本推理的关键挑战。该框架采用渐进式上下文扩展策略,包含热身监督微调、课程引导分阶段强化学习和难度感知回顾采样三大核心组件。实验表明,QwenLong-L1-32B在七项长文本文档问答基准测试上平均提升5.1个百分点,超越OpenAI-o3-mini等旗舰模型,达到与Claude-3.7-Sonnet-Thinking相当的性能水平,为发展具备强大上下文理解和推理能力的实用长文本语言模型开辟了新路径。
韩国科学技术院(KAIST)的研究团队发现了大型语言模型中一个令人担忧的现象:"推理刚性"。这种现象表现为即使是最先进的AI模型,如GPT-4o或Qwen3,也会在解决问题时固执地坚持熟悉的推理模式,甚至会"修改"用户明确给出的条件。研究人员创建了ReasoningTrap诊断数据集,揭示这种行为可分为三类:解释过载、输入不信任和部分指令关注。令人惊讶的是,专门为复杂推理训练的模型比基础模型表现出更强的"固执"倾向,这提醒我们在追求AI推理能力的同时,不应忽视其遵循指令的灵活性。