这项研究突破了大语言模型推理能力主要局限于数学和编程领域的限制,提出了"General-Reasoner"训练方法,使模型能够在物理、化学、金融等多领域展现高水平推理能力。研究团队构建了包含23万个跨学科问题的高质量数据集,并开发了基于生成式模型的答案验证器,取代传统规则验证方法。实验证明,该方法在MMLU-Pro等12个基准测试中表现优异,成功实现了全领域的推理能力提升,同时保持了在数学任务上的卓越表现。
这篇研究来自新加坡南洋理工大学,首次建立了覆盖英语-汉语、英语-泰米尔语和英语-马来语的代码切换对话摘要基准测试CS-Sum。研究评估了10个大型语言模型,发现即使最先进的模型在处理混合语言时也存在严重局限,主要表现为忽略非英语内容、翻译不当和说话者错误归属三类问题。研究揭示仅靠模型扩大或微调无法解决这一问题,强调需要在预训练阶段就加入充分的代码切换数据。
这项研究揭示了现有长视频理解评估基准的严重缺陷:过度依赖多选题导致结果膨胀,且许多问题存在先验偏好使模型无需真正理解视频就能作答。针对这些问题,多伦多大学团队开发了VIDEOEVAL-PRO基准,采用开放式短答案形式,真正要求理解整个视频。通过评估21个专有和开源模型,研究发现:视频模型在开放式问题上的表现比多选题下降超过25%,且多选题高分并不意味着开放式题高分。与其他基准不同,VIDEOEVAL-PRO随输入帧数增加持续提升性能,提供了更可靠的长视频理解能力评估方法。
这项由香港大学等机构合作开发的FedPrLLM框架,首次将联邦学习与大语言模型修剪技术结合,解决了隐私敏感领域无法共享数据进行模型压缩的难题。研究表明,采用层比较的一次性修剪策略且不进行权重缩放,可以在保护数据隐私的同时高效压缩大型语言模型,为医疗、金融等对隐私保护要求高的行业部署轻量级大语言模型提供了新思路。
SSR是西湖大学研究团队开发的创新框架,通过引入深度感知增强视觉语言模型的空间理解能力。该方法将原始深度数据转换为结构化的推理语言,作为中间表示,显著提升空间推理能力。研究团队还创建了包含超过百万级的SSR-COT数据集和SSRBENCH评估基准。实验表明,SSR无需重新训练现有模型即可提供显著性能提升,在空间任务上最高改进22.5个百分点,为机器人和计算机视觉领域开创了新的可能性。
微软研究院与北京大学的团队开发出全新的大型混合推理模型(LHRMs),解决了大型推理模型的过度思考问题。这种创新模型能够像人类一样,根据问题复杂度自动决定是否需要深入思考。研究团队设计了两阶段训练方法,包括混合微调和混合群体策略优化,使模型学会智能切换思考模式。实验证明,LHRMs不仅在数学、编程等推理任务上表现出色,还避免了对简单问题的过度思考,大幅提升了响应效率和用户体验。这项研究为构建更接近人类认知模式的AI系统提供了新思路。
这篇研究探讨了大语言模型知识蒸馏过程中教师模型选择的重要性。北科a-m-team团队从三个顶级模型(AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1)收集了189万个问题的推理答案,分析发现AM-Thinking-v1生成的数据表现出更多样的令牌长度分布和更低的困惑度。使用这些数据训练的学生模型在AIME2024(84.3分)、AIME2025(72.2分)、MATH500(98.4分)和LiveCodeBench(65.9分)等基准测试中,AM蒸馏模型始终表现最佳,并展现出根据任务难度动态调整输出长度的能力。
AWS AI Labs团队开发了MigrationBench,这是首个针对Java代码从版本8迁移到17/21的大型基准测试平台。研究包含5,102个完整项目和300个精选挑战性项目,解决了代码迁移评估的难题。实验表明,结合SD-Feedback方法的Claude-3.5-Sonnet-v2模型在精选数据集上实现了62.33%的最小迁移成功率和27.33%的最大迁移成功率,证明AI能有效执行复杂的仓库级代码迁移任务,为软件工程提供了新工具。
微软研究院新提出的"奖励推理模型"(RRM)为大型语言模型开创了全新评估方式。传统奖励模型对所有问题使用统一计算资源,而RRM能像人类一样先进行推理思考再做判断,对复杂问题投入更多思考资源。研究团队通过强化学习框架训练模型自主发展推理能力,无需显式示例。实验证明RRM在多个基准测试上表现优异,能自适应扩展计算资源提升判断准确性。该研究为AI评估系统带来范式转变,使人工智能判断更接近人类思考过程。
这项研究提出了CompeteSMoE,一种创新的稀疏混合专家(SMoE)训练方法,通过引入竞争机制来优化大型语言模型。传统SMoE依赖独立路由器分配任务,而CompeteSMoE让所有专家直接处理输入并选择反应最强的进行计算。理论分析证明该方法比传统softmax路由具有更好的样本效率,实验显示在视觉指令调整和语言预训练任务上均优于现有方法。该研究为高效训练大型AI模型提供了新思路,特别是在改善专家选择和提高训练效率方面具有重要价值。
这篇论文介绍了香港中文大学研究团队开发的创新框架"Solve-Detect-Verify"和灵活验证器"FlexiVe"。该系统模拟人类"快思考"和"慢思考"的双重认知模式,能根据问题复杂度智能调配计算资源。验证器首先采用轻量级"快思考"并行评估整个推理过程,仅在结果不确定时才启动详细的"慢思考"分析。结合主动识别解决方案完成点的机制,该系统在AIME和CNMO等数学推理基准测试中表现出色,使用约四分之一的计算资源即可达到甚至超越传统方法的准确率,为AI推理效率与准确性的平衡提供了新范式。
这项由不列颠哥伦比亚大学张翔和曹俊泰领衔的研究,揭示了大语言模型中一个被忽视的关键限制:分词系统对符号和算术推理能力的影响。研究团队发现,即使使用思维链提示技术,模型的推理能力仍受制于分词格式。通过将原子符号(如字母)明确分割的输入格式,可使模型在计数、排序和反转等任务上的准确率提升高达80%。实验证明,在优化分词条件下,较小模型甚至能超越更大模型的表现。这一发现颠覆了传统认知,提示我们分词设计对模型能力的重要性不亚于模型架构本身。
首尔国立大学和成均馆大学的研究者提出了"推理路径压缩"(RPC)技术,一种无需训练的方法,能够对大语言模型在推理过程中生成的冗余内容进行压缩。研究发现推理路径存在"语义稀疏性"——大量重复或多余的内容。RPC通过定期评估词元重要性并保留最关键部分,将QwQ-32B模型的推理吞吐量提高了1.60倍,同时准确率仅下降1.2%,并显著减少了内存消耗,解决了长序列生成的内存溢出问题。
NExT-Search是一项创新研究,旨在解决生成式AI搜索中的用户反馈断层问题。传统网络搜索通过丰富的用户点击和停留时间等信息不断优化,而生成式AI搜索虽提高了便利性,但用户只能对最终答案提供粗粒度反馈,无法指出具体环节问题。该研究提出双模式解决方案:用户调试模式允许在查询分解、文档检索和答案生成三个关键阶段进行干预;影子用户模式则利用个性化代理模拟用户偏好,减少交互负担。
MediaTek Research团队提出的Latent Flow Transformer(LFT)是一种创新架构,通过流匹配技术将多个Transformer层压缩为单层,大幅提升效率。研究引入"重耦合比率"指标精确预测适合压缩的层,并开发Flow Walking算法解决路径交叉问题。在Pythia-410M模型上,LFT成功将12层压缩为1层,其性能超过简单跳过3层的方法,缩小了自回归与基于流的生成方法之间的差距。这一技术不仅降低了模型参数量,还保持与原始架构兼容性,为大型语言模型的高效部署开辟了新途径。
史蒂文斯理工学院研究团队发现大语言模型内部存在"真相神经元",这些特殊神经元能够识别信息真实性,不受主题限制。研究通过积分梯度方法定位这些神经元,证明抑制它们会显著降低模型在真实性测试中的表现。实验表明,这些神经元主要分布在模型的中间层,且其影响可跨数据集泛化。这一发现为提高AI系统可信度提供了全新视角,有望促进更可靠的语言模型开发。
今日,思科2025科技创新AI峰会在北京正式举行。本次峰会以“智领未来”为主题,汇聚了来自全球的行业专家、知名学者、企业领袖以及科技创新者。
5月22日,由中国产业发展促进会指导,天九科协、天九老板云联合主办的2025第五届创客万里行启动仪式暨天九科协成立三周年庆典在北京隆重举办。
全球领先的开源解决方案提供商红帽公司近日宣布,推出其旗舰产品——最新版本红帽企业Linux 10,并全面升级其全球合作伙伴生态系统支持。