这项由清华大学张嘉杰等人开发的AdaptThink算法,教会了AI推理模型根据问题难度自动选择思考模式。研究发现,对于简单问题,直接给出答案(NoThinking模式)不仅效率高,准确率还可能更好;而复杂问题则需要深入思考(Thinking模式)。通过强化学习技术,AdaptThink实现了智能切换:在三个数学数据集上,模型响应长度减少53%的同时准确率还提高了2.4%。这项研究为AI推理模型开辟了新思路,使它们更接近人类灵活思考的能力。
这篇研究论文介绍了MM-PRM,一种用于增强多模态数学推理能力的过程奖励模型。研究团队首先构建了一个强大的多模态策略模型MM-Policy,然后创建了包含10,000个多模态数学问题的数据集MM-K12。利用蒙特卡洛树搜索(MCTS)框架,他们自动生成了超过70万个步骤级别的标注,无需人工参与。最终的奖励模型在Best-of-N推理设置中显著提升了多个基准测试的性能,包括MM-K12、OlympiadBench和MathVista等。研究还发现软标签、较小的学习率和路径多样性是优化PRM性能的关键因素。
这项研究提出了FedSVD,一种在联邦学习环境中提升低秩适应(LoRA)微调效果的新方法。研究团队通过引入基于奇异值分解的自适应正交化技术,成功解决了差分隐私随机梯度下降(DP-SGD)与LoRA结合时导致的噪声放大问题。实验表明,FedSVD在GLUE基准测试上显著优于现有方法,特别是在严格隐私保护条件下性能更加稳定,为隐私保护型分布式AI训练提供了新的技术路径。
本届峰会聚焦AI、消费升级、内容创新等核心议题,让我们共同聚焦这场思想盛宴,解码智能科技如何成为品牌破局增长的核心引擎,在技术革新与行业演进的交汇点上,探寻广告营销的未来。
本文介绍了 Salesforce 推出专为金融服务设计的 Agentforce 平台预建 AI 模板,帮助银行、保险和理财等业务自动化,从而减轻专业人员的行政负担,提升客户体验。
本文探讨开放系统在大语言模型优化中的核心作用,详细说明 GPU 调优、编译器修正和网络优化如何推动 AI 性能提升,并以 CentML 平台为例展示开源系统如何降低成本、提升效率。
VSP 360 是 Hitachi Vantara 推出的全新管理层,统一管理 VSP One 存储资源,支持混合云部署、AIOps 智能预测及自动化运维。
量子 AI 结合量子计算与人工智能,为全球 UBI 提供可能,通过优化资源分配和经济建模推动公平与稳定,激发创新和人类潜能,迈向从生存到繁荣的新纪元。
这项新加坡国立大学的研究开发了"Thinkless"框架,解决了大语言模型在推理时的效率问题。研究者通过引入两种控制标记和创新的解耦式相对策略优化算法,使模型能够智能地决定何时使用详细推理、何时直接给出简洁答案,就像人类面对不同难度问题时会灵活调整思考深度一样。实验结果表明,这种方法能减少50%-90%的详细推理使用,显著提高效率同时保持准确度,为构建更智能、更高效的AI系统铺平了道路。
这项研究提出了一种名为"混合3D-4D高斯分布"的新方法,巧妙解决了动态场景重建的效率问题。研究团队发现传统4D高斯分布技术在处理静态区域时存在大量冗余,因此开发了自动识别静态/动态区域的算法,并将静态部分转换为3D表示,动态部分保留4D表示。实验证明,该方法在保持高品质渲染的同时,将训练时间从数小时缩短至约12分钟,为虚拟现实与增强现实应用提供了更高效的动态场景重建工具。
这项研究提出了CPGD算法,解决语言模型规则强化学习中的训练不稳定问题。通过用策略梯度损失替代PPO-clip损失,并引入裁剪机制和策略漂移正则化,CPGD有效避免了现有方法中由重要性采样比率引起的训练崩溃。实验结果表明,CPGD在多个多模态数学基准测试上显著优于其他强化学习算法,与基础模型相比平均提升11.0%的性能,尤其在领域内测试上提升21.8%,展现出卓越的稳定性和泛化能力。
这项由香港大学和Salesforce AI Research联合开展的研究解决了AI助手操作电脑时的关键障碍:GUI定位能力。研究者创建了新的OSWORLD-G基准测试(564个样本)和JEDI数据集(400万示例),通过将复杂界面交互分解为基础组件重新训练模型。实验证明这种方法大幅提升了AI在精确操作计算机方面的能力,使OSWorld基准测试成功率从5%提高到27%,为构建更自然的人机交互系统奠定了基础。
这项研究提出了一种名为"断点思维链推理"的创新方法,颠覆了大语言模型中"完整思考过程必不可少"的传统观念。研究表明,在思考链中途截断并直接生成答案竟能达到甚至超过完整推理的准确率,同时显著节省计算资源。基于此,研究者开发了"断点采样"框架,在思考轨迹数量、每轨迹解答数量和思考截断深度三个维度上灵活分配资源。在多个复杂推理基准测试中,断点采样实现了更优的准确率与计算成本平衡,为资源受限环境下的AI部署提供了实用解决方案。
香港中文大学与智谱研究院的研究团队提出了VisionReasoner,一个基于强化学习的统一视觉感知与推理框架。该模型能够同时处理检测、分割和计数三类视觉任务,通过结构化推理过程分析图像内容。实验显示,与Qwen2.5VL相比,该模型在COCO检测、ReasonSeg分割和CountBench计数任务上分别提升了29.1%、22.1%和15.3%,同时保持了出色的视觉问答能力,证明了统一视觉框架的可行性和高效性。
这项研究提出了QCompiler,一个神经符号框架,旨在提升检索增强生成系统中的搜索意图识别精确度。研究团队设计了最小且充分的BNF语法来形式化复杂查询,并开发了包含查询表达式翻译器、词法语法分析器和递归下降处理器的编译系统,将查询编译为抽象语法树。叶节点子查询的原子性确保了更精确的文档检索和回答生成,显著提升了处理复杂查询的能力。实验证明该方法在多个基准测试中表现优异,尤其在处理依赖型查询时优势明显。
这项研究提出了一种加速TarFlow图像生成模型采样过程的方法。研究人员发现TarFlow中的块具有不同重要性:少数块在图像生成中起主要作用,而其他块贡献较小;有些块对初始值敏感,其他块则相对稳健。基于此,他们提出了收敛排名指标(CRM)和初始猜测指标(IGM),并开发了高斯-赛德尔-雅可比迭代方法。实验表明,该方法在四种TarFlow模型上实现了2.51-5.32倍的加速,同时保持图像质量。这一技术为高效AI图像生成提供了重要解决方案。
SPOT是一项开创性研究,揭示了大型语言模型在科学论文错误检测方面的严重不足。研究团队创建了包含83篇跨10个学科领域的论文基准,每篇均包含导致勘误或撤回的已验证错误。最先进的AI模型在此任务上表现惊人地差,最佳模型o3的召回率仅为21.1%,精确率仅为6.1%。案例研究显示,这些模型在长尾知识和复杂推理方面存在根本性缺陷,犯下类似学生的基础错误。这一发现对依赖AI辅助科研的趋势敲响了警钟,强调了当前AI能力与可靠科学验证要求之间的巨大差距。
德克萨斯大学奥斯汀分校的研究团队开发了一个名为CHARTMUSEUM的全新基准测试,专门评估大型视觉-语言模型理解图表的能力。研究表明,即使最先进的AI模型在图表视觉推理任务上远远落后于人类表现——虽然人类能达到93%的准确率,但最佳模型Gemini-2.5-Pro仅达到63%,开源模型表现更差。研究揭示模型在处理视觉推理问题时比文本推理问题表现低35%-55%,并通过错误分析确定了当前模型在符号选择、视觉比较、轨迹跟踪和数值识别等方面的关键挑战,为未来模型改进提供了明确方向。