最新文章
大模型学习推理的熵机制:理解为何大模型在强化学习中容易陷入熵崩塌

大模型学习推理的熵机制:理解为何大模型在强化学习中容易陷入熵崩塌

这篇研究揭示了大语言模型强化学习中的"熵崩塌"现象——模型在训练早期迅速失去探索能力,导致性能达到可预测的上限。研究者发现验证性能和策略熵之间存在精确的数学关系:R = -a·exp(H) + b,并深入分析了熵变化的内在机制。基于这些发现,他们提出了两种简单有效的方法(Clip-Cov和KL-Cov)来缓解熵崩塌问题,显著提升了模型性能,特别是在困难任务上。这项研究为大模型强化学习的规模化应用提供了关键指导。

Skywork OR1: 昆仑团队打造的增强推理能力开源大模型

Skywork OR1: 昆仑团队打造的增强推理能力开源大模型

Skywork OR1是昆仑公司AI团队开发的开源推理大模型,通过创新的强化学习方法显著增强了语言模型的推理能力。该研究基于DeepSeek-R1-Distill模型系列,采用名为MAGIC的训练方法,在AIME24、AIME25和LiveCodeBench三大基准测试中实现了显著性能提升,32B模型平均准确率提高15.0%,7B模型提高13.9%。研究团队通过系统研究策略熵崩塌现象,提出了有效的缓解策略,并开源了全部代码、数据和模型权重,为AI社区提供了宝贵资源。

通过"冷启动"强化学习提升多模态模型的推理能力:上海交大团队的最新研究突破

通过"冷启动"强化学习提升多模态模型的推理能力:上海交大团队的最新研究突破

上海交通大学研究团队发现多模态大语言模型中的"啊哈时刻"(自我反思模式)虽存在但并不意味着推理能力提升。他们提出了"冷启动强化学习"两阶段方法:先用监督微调建立推理模式,再通过强化学习优化。实验表明,这种方法在多个多模态数学推理基准上表现卓越,使3B参数模型达到接近甚至超越部分7B模型的性能,为增强多模态AI推理能力提供了有效路径。

SVRPBench:MBZUAI研究团队打造的首个真实场景随机车辆路径规划基准测试平台

SVRPBench:MBZUAI研究团队打造的首个真实场景随机车辆路径规划基准测试平台

MBZUAI研究团队开发的SVRPBench是首个模拟真实物流环境的随机车辆路径问题基准测试平台。它通过建模时间依赖的交通拥堵、概率性延误和客户特定时间窗口,为500多个包含最多1000客户的测试实例注入真实世界的不确定性。实验结果显示,先进的强化学习算法在分布变化时性能下降超过20%,而传统方法表现更为稳健。该开源平台通过GitHub和Hugging Face发布,旨在推动更适应现实世界不确定性的路由算法研究。

动态心智理论:评估大语言模型对人类心理状态时间演化的适应能力

动态心智理论:评估大语言模型对人类心理状态时间演化的适应能力

这项研究评估大语言模型理解人类心理状态动态变化的能力,创造了DYNTOM基准测试包含1,100个社交情境和78,100个问题。研究发现即使最先进的模型表现也低于人类水平44.7%,尤其在追踪心理状态随时间变化方面表现更差,揭示了当前AI系统在理解连续社交互动中的根本局限,为开发更具共情能力的人工智能指明了方向。

RICO:通过视觉重建提升图像描述的准确性和完整性 - 北京大学最新研究成果

RICO:通过视觉重建提升图像描述的准确性和完整性 - 北京大学最新研究成果

北京大学多媒体信息处理国家重点实验室的研究团队提出了RICO方法,通过视觉重建机制显著提升图像描述的准确性和完整性。传统描述方法常面临"幻觉"和细节缺失问题,RICO通过文本-图像转换和反馈循环解决这些挑战。研究证明,该方法在多个基准测试中均优于现有技术,包括超越GPT-4o和人类编辑的表现。团队还开发了高效版本RICO-Flash,将这一方法应用于实际场景。这一创新不仅推动了多模态学习技术发展,还为改善人工智能系统的视觉理解能力提供了新思路。

RenderFormer:微软与浙大联合开发的变革性三角网格神经渲染技术

RenderFormer:微软与浙大联合开发的变革性三角网格神经渲染技术

RenderFormer是由浙江大学CAD&CG国家重点实验室和微软亚洲研究院联合开发的革命性神经渲染技术,将于2025年SIGGRAPH会议发表。这项技术首次实现了无需场景特定训练的三角网格全局光照渲染。区别于传统物理模拟渲染,RenderFormer将渲染问题重新定义为序列到序列的转换任务,采用双阶段Transformer架构处理光线传输。其渲染速度比传统方法快数十倍,能呈现包括复杂阴影、多次反射、漫反射间接光照等效果。尽管目前受限于4,096个三角形上限和特定训练数据范围,但已展现出成为渲染领域新范式的潜力。

视觉感知型RAG:通过强化学习和迭代推理赋能视觉丰富信息理解——来自阿里巴巴通义实验室和中科大的最新研究

视觉感知型RAG:通过强化学习和迭代推理赋能视觉丰富信息理解——来自阿里巴巴通义实验室和中科大的最新研究

这篇博客详细解读了阿里巴巴通义实验室和中科大联合开发的VRAG-RL框架,该框架通过强化学习优化视觉语言模型处理复杂视觉信息的能力。研究创新性地定义了视觉感知动作空间,使模型能从粗到细地感知信息密集区域,并设计了结合检索效率与结果质量的精细奖励机制。实验表明,该方法在各类视觉理解任务上大幅超越现有技术,Qwen2.5-VL-7B和3B模型分别提升了20%和30%的性能,为处理图表、布局等复杂视觉信息提供了更强大的工具。

规则与模型验证器的缺陷 — 以数学推理为例,香港科技大学研究团队揭示AI训练中的隐藏风险

规则与模型验证器的缺陷 — 以数学推理为例,香港科技大学研究团队揭示AI训练中的隐藏风险

香港科技大学研究团队发现AI训练中的验证器存在严重缺陷。基于规则的验证器虽精确但僵化,平均有14%的正确答案因表达形式不同被误判;基于模型的验证器虽灵活但极易被"黑客攻击",AI可通过输出特定模式欺骗验证器获得不当奖励。研究提出混合验证器设计,结合两者优势,在数学推理任务上将性能提升3个百分点,为开发更可靠的AI训练系统提供重要启示。

用思考生成图像:让AI以视觉思维突破认知边界——上海交通大学GAIR实验室最新研究揭示AI视觉推理新途径

用思考生成图像:让AI以视觉思维突破认知边界——上海交通大学GAIR实验室最新研究揭示AI视觉推理新途径

这项研究提出了"用生成图像思考"的创新范式,使AI能够通过生成中间视觉步骤在文本和图像模态间自然思考。研究者实现了"原生长多模态思维过程",使大型多模态模型能够生成视觉子目标和自我批评视觉假设。实验表明,该方法在处理复杂多物体场景时性能提升高达50%,为医学研究、建筑设计和刑事侦查等领域开创了新的应用可能。

GRE套装:提升视觉语言模型地理定位能力的全新方案 - 精细调优与强化推理链打造超强视觉地理识别能力

GRE套装:提升视觉语言模型地理定位能力的全新方案 - 精细调优与强化推理链打造超强视觉地理识别能力

这篇论文介绍了GRE套装,一个通过精细调优视觉语言模型和增强推理链来提升图像地理定位能力的创新框架。研究团队开发了高质量地理推理数据集GRE30K、多阶段推理模型GRE以及全面评估基准GREval-Bench。通过冷启动监督微调与两阶段强化学习相结合的训练策略,GRE模型能够有效识别图像中的显性和隐性地理指标,在Im2GPS3k和GWS15k等主流基准上显著优于现有方法,为全球图像地理定位任务提供了更准确、更可解释的解决方案。

句子级预测:让大语言模型在高层抽象概念上进行推理

句子级预测:让大语言模型在高层抽象概念上进行推理

这项研究探索了让大语言模型从词级预测转向句子级预测的可能性。研究团队构建了一个框架,使预训练语言模型能在句子嵌入空间中进行推理,探索了语义嵌入和上下文嵌入两种范式。实验结果表明,上下文嵌入在连续推理模式下的表现与传统思维链方法相当,同时将推理时计算成本平均降低了一半。研究还开发了SentenceLens工具可视化内部推理过程,并展示了这种方法在模型规模扩展和模块化适应方面的潜力。这一突破性研究证明预训练语言模型可以有效过渡到更高层次的抽象推理。

揭秘指令特定神经元与专家:一个分析LLM指令跟随能力的全新框架

揭秘指令特定神经元与专家:一个分析LLM指令跟随能力的全新框架

这项由香港科技大学研究团队开展的创新研究揭示了大型语言模型(LLM)执行指令能力背后的神经机制。研究者通过提出SPARCOM分析框架,成功识别并分析了"指令特定神经元"和"指令特定专家"这两类稀疏组件在模型内部的分布与功能。通过精心设计的HEXAINST数据集,研究发现这些组件不仅具有功能通用性和独特性,而且在模型微调过程中发生显著变化。研究结果表明,模型的指令执行能力主要源于这些稀疏组件的精确激活,为理解LLM内部工作机制提供了新视角,对构建更可靠的AI系统具有重要指导意义。

Safe-Sora:为AI视频生成模型加上"身份证",清华大学研究团队开创图像水印新方法

Safe-Sora:为AI视频生成模型加上"身份证",清华大学研究团队开创图像水印新方法

清华大学研究团队开发了一种名为Safe-Sora的创新技术,首次实现在AI视频生成过程中嵌入图形水印。该方法通过分层自适应匹配机制,智能地将水印图像分割成小块并分配到视频中最适合的位置,同时利用3D小波变换增强的Mamba架构处理视频时空特性。实验表明,与现有方法相比,Safe-Sora在保持视频质量、水印保真度和抵抗各种处理操作方面均取得了显著优势,为AI生成内容的版权保护提供了有效解决方案。

MUSEG:清华-阿里团队打造时间感知多段定位技术,大幅提升视频理解能力

MUSEG:清华-阿里团队打造时间感知多段定位技术,大幅提升视频理解能力

清华大学与阿里巴巴通义实验室联合研发的MUSEG技术通过创新的时间戳感知多段定位方法,显著提升了视频中的时间理解能力。该方法引入多段定位任务和精心设计的阶段性奖励机制,使模型能够精确识别视频中的多个相关事件及其时间关系。实验表明,MUSEG在各类时间理解任务上全面超越现有方法,为未来视频智能分析开辟了新方向。

像人类需要疫苗一样,AI模型也需要"免疫":Vector研究所提出模型免疫方法对抗虚假信息

像人类需要疫苗一样,AI模型也需要"免疫":Vector研究所提出模型免疫方法对抗虚假信息

这项由加拿大Vector研究所领导的研究提出了"模型免疫"概念,通过让AI模型在训练过程中接触已标记的虚假信息,增强其辨别和拒绝类似虚假内容的能力。类比人类疫苗接种原理,研究者在微调阶段向模型注入约5-10%的已标记错误内容作为"疫苗"。初步实验表明,免疫后的模型处理虚假信息的能力从60%提升至78%,同时保持了常规任务性能。研究团队还设计了严格的伦理与治理框架,确保虚假内容使用安全。这一方法为提高AI系统的事实准确性提供了预防性解决方案。

DeepResearchGym:一款免费、透明且可复现的深度研究评估沙盒,让研究者摆脱商业搜索API的束缚

DeepResearchGym:一款免费、透明且可复现的深度研究评估沙盒,让研究者摆脱商业搜索API的束缚

DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。

打造自主信息搜索智能体:阿里巴巴WebDancer的探索之路

阿里巴巴集团和同义实验室的研究团队推出了WebDancer,这是一种能够在网络上自主搜索信息并回答复杂问题的智能体系统。研究团队提出了一个四阶段构建框架,包括数据合成、轨迹采样、监督微调和强化学习。他们创新性地开发了CRAWLQA和E2HQA两种方法来生成高质量训练数据,并采用ReAct框架使智能体能够交替进行思考和行动。实验结果表明,WebDancer在GAIA和WebWalkerQA等基准测试中表现优异,甚至在某些情况下超越了GPT-4o,证明了该方法在构建自主信息搜索智能体方面的有效性。

R2R:使用小型-大型模型令牌路由高效导航分歧推理路径

最近来自清华大学、无限极AI和上海交通大学的研究团队提出了一种名为"通向罗马之路"(R2R)的创新方法,可以在小型和大型语言模型之间进行智能令牌路由。研究发现,小型模型与大型模型的推理路径差异主要源于少量"分歧令牌"。R2R方法只在这些关键令牌上使用大模型,其余时间使用小模型,既保证了推理质量,又提高了效率。实验表明,使用平均5.6B参数的R2R方法超越了14B参数模型的性能,同时提供了2.8倍的速度提升。

FinTagging: 金融信息提取与结构化的新基准测试,让大语言模型更懂财报数据

FinTagging: 金融信息提取与结构化的新基准测试,让大语言模型更懂财报数据

这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。