最新文章
谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

谁才是真正的好老师?北科研团队比较不同推理蒸馏源对大语言模型影响

这篇研究探讨了大语言模型知识蒸馏过程中教师模型选择的重要性。北科a-m-team团队从三个顶级模型(AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1)收集了189万个问题的推理答案,分析发现AM-Thinking-v1生成的数据表现出更多样的令牌长度分布和更低的困惑度。使用这些数据训练的学生模型在AIME2024(84.3分)、AIME2025(72.2分)、MATH500(98.4分)和LiveCodeBench(65.9分)等基准测试中,AM蒸馏模型始终表现最佳,并展现出根据任务难度动态调整输出长度的能力。

MigrationBench:AWS AI Labs打造的Java代码迁移基准测试平台,让AI助力软件升级

MigrationBench:AWS AI Labs打造的Java代码迁移基准测试平台,让AI助力软件升级

AWS AI Labs团队开发了MigrationBench,这是首个针对Java代码从版本8迁移到17/21的大型基准测试平台。研究包含5,102个完整项目和300个精选挑战性项目,解决了代码迁移评估的难题。实验表明,结合SD-Feedback方法的Claude-3.5-Sonnet-v2模型在精选数据集上实现了62.33%的最小迁移成功率和27.33%的最大迁移成功率,证明AI能有效执行复杂的仓库级代码迁移任务,为软件工程提供了新工具。

研究推理的奖励模型:微软提出新方法让AI评判能力更上一层楼

研究推理的奖励模型:微软提出新方法让AI评判能力更上一层楼

微软研究院新提出的"奖励推理模型"(RRM)为大型语言模型开创了全新评估方式。传统奖励模型对所有问题使用统一计算资源,而RRM能像人类一样先进行推理思考再做判断,对复杂问题投入更多思考资源。研究团队通过强化学习框架训练模型自主发展推理能力,无需显式示例。实验证明RRM在多个基准测试上表现优异,能自适应扩展计算资源提升判断准确性。该研究为AI评估系统带来范式转变,使人工智能判断更接近人类思考过程。

CompeteSMoE:通过竞争机制实现统计保证的混合专家模型训练

CompeteSMoE:通过竞争机制实现统计保证的混合专家模型训练

这项研究提出了CompeteSMoE,一种创新的稀疏混合专家(SMoE)训练方法,通过引入竞争机制来优化大型语言模型。传统SMoE依赖独立路由器分配任务,而CompeteSMoE让所有专家直接处理输入并选择反应最强的进行计算。理论分析证明该方法比传统softmax路由具有更好的样本效率,实验显示在视觉指令调整和语言预训练任务上均优于现有方法。该研究为高效训练大型AI模型提供了新思路,特别是在改善专家选择和提高训练效率方面具有重要价值。

思考快与慢的大融合:香港中文大学团队打造高效推理验证框架,让AI灵活验证自身思维过程

思考快与慢的大融合:香港中文大学团队打造高效推理验证框架,让AI灵活验证自身思维过程

这篇论文介绍了香港中文大学研究团队开发的创新框架"Solve-Detect-Verify"和灵活验证器"FlexiVe"。该系统模拟人类"快思考"和"慢思考"的双重认知模式,能根据问题复杂度智能调配计算资源。验证器首先采用轻量级"快思考"并行评估整个推理过程,仅在结果不确定时才启动详细的"慢思考"分析。结合主动识别解决方案完成点的机制,该系统在AIME和CNMO等数学推理基准测试中表现出色,使用约四分之一的计算资源即可达到甚至超越传统方法的准确率,为AI推理效率与准确性的平衡提供了新范式。

大语言模型中的分词限制:一项探究符号和算术推理边界的研究

大语言模型中的分词限制:一项探究符号和算术推理边界的研究

这项由不列颠哥伦比亚大学张翔和曹俊泰领衔的研究,揭示了大语言模型中一个被忽视的关键限制:分词系统对符号和算术推理能力的影响。研究团队发现,即使使用思维链提示技术,模型的推理能力仍受制于分词格式。通过将原子符号(如字母)明确分割的输入格式,可使模型在计数、排序和反转等任务上的准确率提升高达80%。实验证明,在优化分词条件下,较小模型甚至能超越更大模型的表现。这一发现颠覆了传统认知,提示我们分词设计对模型能力的重要性不亚于模型架构本身。

解锁长文推理效率:首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

解锁长文推理效率:首尔国立大学和成均馆大学开发的"推理路径压缩"技术让LLM思考更快更省资源

首尔国立大学和成均馆大学的研究者提出了"推理路径压缩"(RPC)技术,一种无需训练的方法,能够对大语言模型在推理过程中生成的冗余内容进行压缩。研究发现推理路径存在"语义稀疏性"——大量重复或多余的内容。RPC通过定期评估词元重要性并保留最关键部分,将QwQ-32B模型的推理吞吐量提高了1.60倍,同时准确率仅下降1.2%,并显著减少了内存消耗,解决了长序列生成的内存溢出问题。

NExT-Search:重建生成式AI搜索的用户反馈生态系统,打破大语言模型搜索的反馈断层

NExT-Search:重建生成式AI搜索的用户反馈生态系统,打破大语言模型搜索的反馈断层

NExT-Search是一项创新研究,旨在解决生成式AI搜索中的用户反馈断层问题。传统网络搜索通过丰富的用户点击和停留时间等信息不断优化,而生成式AI搜索虽提高了便利性,但用户只能对最终答案提供粗粒度反馈,无法指出具体环节问题。该研究提出双模式解决方案:用户调试模式允许在查询分解、文档检索和答案生成三个关键阶段进行干预;影子用户模式则利用个性化代理模拟用户偏好,减少交互负担。

让语言模型流动起来:MediaTek Research团队研发的Latent Flow Transformer,通过流匹配压缩Transformer层数

让语言模型流动起来:MediaTek Research团队研发的Latent Flow Transformer,通过流匹配压缩Transformer层数

MediaTek Research团队提出的Latent Flow Transformer(LFT)是一种创新架构,通过流匹配技术将多个Transformer层压缩为单层,大幅提升效率。研究引入"重耦合比率"指标精确预测适合压缩的层,并开发Flow Walking算法解决路径交叉问题。在Pythia-410M模型上,LFT成功将12层压缩为1层,其性能超过简单跳过3层的方法,缩小了自回归与基于流的生成方法之间的差距。这一技术不仅降低了模型参数量,还保持与原始架构兼容性,为大型语言模型的高效部署开辟了新途径。

"真相神经元":探索大语言模型中的"诚实机制"——史蒂文斯理工学院揭秘AI如何区分真假

"真相神经元":探索大语言模型中的"诚实机制"——史蒂文斯理工学院揭秘AI如何区分真假

史蒂文斯理工学院研究团队发现大语言模型内部存在"真相神经元",这些特殊神经元能够识别信息真实性,不受主题限制。研究通过积分梯度方法定位这些神经元,证明抑制它们会显著降低模型在真实性测试中的表现。实验表明,这些神经元主要分布在模型的中间层,且其影响可跨数据集泛化。这一发现为提高AI系统可信度提供了全新视角,有望促进更可靠的语言模型开发。

2025-05-23

思科科技创新AI峰会成功举办 并发布2025《网络安全就绪指数》

今日,思科2025科技创新AI峰会在北京正式举行。本次峰会以“智领未来”为主题,汇聚了来自全球的行业专家、知名学者、企业领袖以及科技创新者。

2025-05-23

科技破界,创变共生!2025第五届创客万里行在京启动

5月22日,由中国产业发展促进会指导,天九科协、天九老板云联合主办的2025第五届创客万里行启动仪式暨天九科协成立三周年庆典在北京隆重举办。

2025-05-23

金融测试新引擎:AI驱动下的银行测试创新案例

在金融行业数字化转型加速的背景下,软件测试作为保障系统质量的关键环节,面临着业务高频迭代、场景复杂等挑战。

2025-05-23

红帽合作伙伴在红帽企业Linux 10上加速混合云和AI创新

全球领先的开源解决方案提供商红帽公司近日宣布,推出其旗舰产品——最新版本红帽企业Linux 10,并全面升级其全球合作伙伴生态系统支持。

2025-05-23

2025IAI传鉴国际创意节&传鉴品牌峰会在北京举办!

5月21 -22日,2025 IAI传鉴国际创意节于北京盛大启幕。

2025-05-23

IAI传鉴国际创意节第二日精彩继续

2025IAI传鉴国际创意节第二日的议程,以“县域品牌跃迁、非遗孵化机制、AI内容生态、健康消费升级”为主线,系统展示了中国在新周期下的品牌方法论和文化路径图。IAI正在以系统化的赛事体系、平台机制与品牌工具,打造一个“以县域为支点、以创意为引擎、以AI为工具”的中国新品牌运动。

双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

双向语言模型是更好的知识记忆者?WikiDYK成为大语言模型知识注入的全新标准

这项研究介绍了WikiDYK基准测试,利用维基百科"你知道吗"板块的实时更新内容评估大语言模型的知识注入能力。研究发现,双向语言模型(BiLMs)在记忆知识方面显著优于因果语言模型(CLMs),准确率高出约23%。基于此,研究团队提出了一个模块化框架,将BiLMs作为知识库集成到LLMs中,进一步提升了29.1%的可靠性。这一发现挑战了当前主流LLM架构的优势假设,为AI系统的知识更新提供了新方向。

解析数字原住民:Gen Alpha网络语言如何挑战AI内容审核系统

解析数字原住民:Gen Alpha网络语言如何挑战AI内容审核系统

这篇研究探讨了Alpha世代(2010-2024年出生)独特的数字通信模式如何挑战现有AI内容审核系统。研究者评估了四大AI系统(GPT-4、Claude、Gemini和Llama 3)以及人类审核员理解这一代专属语言的能力,特别关注隐蔽骚扰识别。研究创建了100个当代Alpha世代表达的数据集,发现即使是最先进的AI系统也难以理解Alpha世代快速演变的语言,特别是在语境依赖和隐蔽风险方面。

透过魔镜:斯科尔科沃研究院最新AI技术教你如何识别"奇怪图像"

透过魔镜:斯科尔科沃研究院最新AI技术教你如何识别"奇怪图像"

斯科尔科沃科技学院和合作伙伴的研究团队开发了新型AI方法"TLG",有效识别违反常识的奇怪图像。该方法利用大型视觉-语言模型从图像提取基本事实,再通过注意力池化分类器分析这些事实的一致性,实现了WHOOPS!数据集73.54%和新创建的WEIRD数据集87.57%的准确率,均达到目前最佳水平。研究还创建了包含824张图像的WEIRD数据集,为评估AI对常识判断的能力提供更全面基础。

史丹福大学团队推出MedCaseReasoning:首个用真实病例评估和提升AI医疗推理能力的开源数据集

史丹福大学团队推出MedCaseReasoning:首个用真实病例评估和提升AI医疗推理能力的开源数据集

斯坦福大学研究团队开发了MedCaseReasoning数据集,这是首个专门评估人工智能与临床医生诊断推理一致性的开源数据库。现有医疗AI评估标准仅检验诊断准确率,忽视了推理过程质量。该数据集包含14,489个诊断问答案例,每个都附有真实临床推理,涵盖800多种医学期刊。研究发现顶尖AI模型在医疗推理方面表现有限,如DeepSeek-R1的诊断准确率仅48%,推理召回率仅64%。