微软研究院提出Chain-of-Model学习范式,将因果关系融入大型语言模型的隐藏状态。这一创新通过"链式表示"将模型参数分为多个子表示链,使模型能够逐层扩展且保持前序能力。研究成果包括CoLM和CoLM-Air两种实现,实验证明它们不仅性能与标准Transformer相当,还提供了高效训练和灵活推理的优势,包括能够渐进扩展模型规模、提供多尺度子模型以及显著加速预填充计算。这一突破为解决大型语言模型训练成本高和部署缺乏灵活性的问题提供了新思路。
这篇研究介绍了字节跳动团队开发的AdaCoT框架,通过强化学习实现大型语言模型的自适应思维链触发。该框架将问题设计为帕累托优化,平衡推理质量与计算效率,使模型能根据输入复杂度自主决定是否使用详细推理。研究结果显示,在维持高性能的同时,AdaCoT能将思维链使用率降低至3.18%,响应令牌数减少约70%,大幅提升模型效率和用户体验。
这项由清华大学张嘉杰等人开发的AdaptThink算法,教会了AI推理模型根据问题难度自动选择思考模式。研究发现,对于简单问题,直接给出答案(NoThinking模式)不仅效率高,准确率还可能更好;而复杂问题则需要深入思考(Thinking模式)。通过强化学习技术,AdaptThink实现了智能切换:在三个数学数据集上,模型响应长度减少53%的同时准确率还提高了2.4%。这项研究为AI推理模型开辟了新思路,使它们更接近人类灵活思考的能力。
这篇研究论文介绍了MM-PRM,一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy,然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架,他们自动生成了超过70万个步骤级别的标注,无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能,包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。
这项研究提出了FedSVD,一种在联邦学习环境中提升低秩适应(LoRA)微调效果的新方法。研究团队通过引入基于奇异值分解的自适应正交化技术,成功解决了差分隐私随机梯度下降(DP-SGD)与LoRA结合时导致的噪声放大问题。实验表明,FedSVD在GLUE基准测试上显著优于现有方法,特别是在严格隐私保护条件下性能更加稳定,为隐私保护型分布式AI训练提供了新的技术路径。
本届峰会聚焦AI、消费升级、内容创新等核心议题,让我们共同聚焦这场思想盛宴,解码智能科技如何成为品牌破局增长的核心引擎,在技术革新与行业演进的交汇点上,探寻广告营销的未来。
本文介绍了 Salesforce 推出专为金融服务设计的 Agentforce 平台预建 AI 模板,帮助银行、保险和理财等业务自动化,从而减轻专业人员的行政负担,提升客户体验。
本文探讨开放系统在大语言模型优化中的核心作用,详细说明 GPU 调优、编译器修正和网络优化如何推动 AI 性能提升,并以 CentML 平台为例展示开源系统如何降低成本、提升效率。
VSP 360 是 Hitachi Vantara 推出的全新管理层,统一管理 VSP One 存储资源,支持混合云部署、AIOps 智能预测及自动化运维。
量子 AI 结合量子计算与人工智能,为全球 UBI 提供可能,通过优化资源分配和经济建模推动公平与稳定,激发创新和人类潜能,迈向从生存到繁荣的新纪元。
这项新加坡国立大学的研究开发了"Thinkless"框架,解决了大语言模型在推理时的效率问题。研究者通过引入两种控制标记和创新的解耦式相对策略优化算法,使模型能够智能地决定何时使用详细推理、何时直接给出简洁答案,就像人类面对不同难度问题时会灵活调整思考深度一样。实验结果表明,这种方法能减少50%-90%的详细推理使用,显著提高效率同时保持准确度,为构建更智能、更高效的AI系统铺平了道路。
这项研究提出了一种名为"混合3D-4D高斯分布"的新方法,巧妙解决了动态场景重建的效率问题。研究团队发现传统4D高斯分布技术在处理静态区域时存在大量冗余,因此开发了自动识别静态/动态区域的算法,并将静态部分转换为3D表示,动态部分保留4D表示。实验证明,该方法在保持高品质渲染的同时,将训练时间从数小时缩短至约12分钟,为虚拟现实与增强现实应用提供了更高效的动态场景重建工具。
这项研究提出了CPGD算法,解决语言模型规则强化学习中的训练不稳定问题。通过用策略梯度损失替代PPO-clip损失,并引入裁剪机制和策略漂移正则化,CPGD有效避免了现有方法中由重要性采样比率引起的训练崩溃。实验结果表明,CPGD在多个多模态数学基准测试上显著优于其他强化学习算法,与基础模型相比平均提升11.0%的性能,尤其在领域内测试上提升21.8%,展现出卓越的稳定性和泛化能力。
这项由香港大学和Salesforce AI Research联合开展的研究解决了AI助手操作电脑时的关键障碍:GUI定位能力。研究者创建了新的OSWORLD-G基准测试(564个样本)和JEDI数据集(400万示例),通过将复杂界面交互分解为基础组件重新训练模型。实验证明这种方法大幅提升了AI在精确操作计算机方面的能力,使OSWorld基准测试成功率从5%提高到27%,为构建更自然的人机交互系统奠定了基础。
这项研究提出了一种名为"断点思维链推理"的创新方法,颠覆了大语言模型中"完整思考过程必不可少"的传统观念。研究表明,在思考链中途截断并直接生成答案竟能达到甚至超过完整推理的准确率,同时显著节省计算资源。基于此,研究者开发了"断点采样"框架,在思考轨迹数量、每轨迹解答数量和思考截断深度三个维度上灵活分配资源。在多个复杂推理基准测试中,断点采样实现了更优的准确率与计算成本平衡,为资源受限环境下的AI部署提供了实用解决方案。
香港中文大学与智谱研究院的研究团队提出了VisionReasoner,一个基于强化学习的统一视觉感知与推理框架。该模型能够同时处理检测、分割和计数三类视觉任务,通过结构化推理过程分析图像内容。实验显示,与Qwen2.5VL相比,该模型在COCO检测、ReasonSeg分割和CountBench计数任务上分别提升了29.1%、22.1%和15.3%,同时保持了出色的视觉问答能力,证明了统一视觉框架的可行性和高效性。
这项研究提出了QCompiler,一个神经符号框架,旨在提升检索增强生成系统中的搜索意图识别精确度。研究团队设计了最小且充分的BNF语法来形式化复杂查询,并开发了包含查询表达式翻译器、词法语法分析器和递归下降处理器的编译系统,将查询编译为抽象语法树。叶节点子查询的原子性确保了更精确的文档检索和回答生成,显著提升了处理复杂查询的能力。实验证明该方法在多个基准测试中表现优异,尤其在处理依赖型查询时优势明显。