这项由香港中文大学和新加坡国立大学研究者合作开发的"思考或不思考"(TON)框架,通过创新的"思考丢弃"策略和两阶段训练方法,实现了让视觉-语言模型能够像人类一样根据问题难度选择性推理的能力。实验表明,TON可减少高达90%的输出长度,同时保持或提升性能,在计数、数学和导航等多种任务中展现出显著优势,为AI系统在保持推理质量的同时大幅提升效率提供了新思路。
GRIT是一种创新框架,它教会多模态大语言模型(MLLMs)在视觉推理过程中"边看边思考"。传统MLLMs虽能处理图像和文字,但无法明确指出推理时关注的具体图像区域。GRIT通过引入一种新的推理范式,让模型生成的推理内容自然地混合文本和边界框坐标,使AI能像人类一样在思考时明确参考视觉信息。研究团队开发的GRPO-GR强化学习方法不需要详细标注数据,仅用20个训练样本就能赋予模型这种能力。
这项研究提出了SafeKey框架,针对大型推理模型安全问题的新解决方案。研究者发现模型在思考过程中存在"安全啊哈时刻",关键在于理解查询后的第一个句子。SafeKey通过双路径安全头和查询掩码建模两种方法增强这一安全信号,显著提升了模型对越狱攻击的防御能力,平均降低9.6%的有害率,同时保持模型的通用能力。这为AI安全领域提供了新的研究方向。
UC伯克利研究团队开发了Robo2VLM,一个创新框架,利用真实机器人操作数据增强视觉语言模型的空间推理能力。该研究从176K真实机器人轨迹创建了一个包含684,710个问题的大规模VQA数据集,涵盖463个场景和3,396个操作任务。实验表明,这些数据可显著提升模型在空间关系理解、目标推理和物理交互方面的能力,为机器人与AI系统的融合开辟新方向。
Tool-Star是人民大学研究团队开发的AI多工具协作系统,它通过强化学习使大型语言模型能够自主调用多种外部工具进行推理。该系统采用创新的数据合成流程和两阶段训练框架,包括冷启动微调和带有层级奖励的自我批评强化学习。在10项挑战性推理任务中,Tool-Star展现出卓越性能,证明了多工具协作方法的有效性,为AI系统扩展能力边界开辟了新路径。
伊利诺伊大学厄巴纳-香槟分校研究发现,强化学习在微调大型语言模型时,实际上只更新了模型中5%-30%的参数,而非整个模型。这种"参数更新稀疏性"在各种RL算法和模型中普遍存在,且仅微调这个子网络就能达到与完全微调相同的效果。研究表明,训练数据与模型策略分布的接近程度是导致这种现象的主要原因,为未来开发更高效的RL训练方法提供了新思路。
武汉大学研究团队提出了FRANK模型,一种无需训练的方法,能让视觉语言大模型获得推理和反思能力。研究发现多模态模型中,浅层解码器负责视觉理解,深层负责文本推理,据此设计了一种层次化权重合并策略,将视觉模型与推理模型智能融合。他们通过泰勒展开推导出闭式融合权重公式,并引入注意力引导的指数衰减先验,使模型既保留视觉感知又获得推理能力。实验显示FRANK-38B在MMMU测试中达到69.2%准确率,超越GPT-4o,且展现出卓越的自我纠错能力,为多模态AI提供了无需昂贵训练的新途径。
ByteDance和中国科学院的研究团队提出了Diffusion ConvNet (DiCo),一种完全基于卷积神经网络的扩散模型架构,实现了图像生成任务中质量与效率的双重突破。研究发现DiT模型中的全局自注意力机制存在冗余,通过引入紧凑通道注意力机制,解决了卷积模型中的通道冗余问题。在ImageNet基准测试中,DiCo-XL比DiT-XL/2生成速度快2.7-3.1倍,同时实现了更优的图像质量,证明了纯卷积架构在扩散模型中的巨大潜力。
本次推出的新品,除了Air系列、V3系列这两大热销产品外,更有全彩AI+AR眼镜雷鸟X3 Pro,产品突破芯片、交互、空间计算、重量与光学显示五大核心技术难题,并开创性地引入可视化Live AI和安卓虚拟机,带来全新的眼镜应用生态。
WiseTech以21亿美元收购E2open,借其云平台支持6000多家企业、跟踪180亿笔交易,旨在增强物流软件竞争力,预计2025年底完成交易并提升盈利水平。
本文探讨如何借助人工智能和数据科学实现医疗研发、生产及护理的极速升级,通过提高数据采集、处理与解读能力,为患者带来精准诊疗和创新药物,同时解决技术普及难题。
SAP今日宣布与阿里巴巴集团达成战略合作,共同加速云转型。根据合作协议,阿里巴巴集团将采用 SAP ERP私有云版本,来构建其企业基础架构。同时,双方还将开展联合市场拓展战略,旨在助力全球客户加速实现价值转化。
微软为记事本、画图和截屏工具引入了 AI 增强功能,可实现文本生成、贴纸创作和自动优化截屏。记事本和画图的新功能仅面向 Microsoft 365、Copilot Pro 用户及 Copilot Plus PC,而截屏工具功能对所有人均开放。
本文介绍了微软最新开源协议 NLWeb,它利用现有结构化数据,将网站转变为支持自然语言交互的 AI 应用,为企业构建 agentic AI 提供新路径,同时对比了当前其他 AI 协议的特性与优劣。
文章详细分析了企业在推广代理型人工智能时面临的基础设施高投入、技术整合、专才匮乏以及后续管理等挑战,并探讨了如何构建完善生态系统以实现实际业务价值。
文章探讨了人工智能如何瓦解知识工作者的传统职业与身份,促使他们重新定义自我、发掘机器难以替代的人文优势。
英伟达为应对出口限制,正在研发基于 Blackwell 架构但规格较低、成本较低的新型 AI 芯片,计划6月开始量产,抢占中国市场。
大联大成功跻身英国品牌评估机构Brand Finance 5月9日发布的“2025中国品牌价值500强”榜单并位列第218位。
这项研究揭示了熵最小化作为单独目标可显著提升大型语言模型在数学、物理和编程任务上的推理能力,无需任何标记数据。伊利诺伊大学厄巴纳-香槟分校的研究团队提出三种方法:无监督微调(EM-FT)、基于熵奖励的强化学习(EM-RL)和推理时优化(EM-INF)。实验表明,这些方法在某些任务上甚至超过需要大量标记数据的先进技术,证明许多预训练模型已具备被低估的推理能力,只需简单的熵最小化即可激发。
这篇文章介绍了马里兰大学研究团队开发的BLEUBERI方法,该方法惊人地发现被认为过于简单的BLEU评分系统在指导大语言模型遵循指令方面非常有效。研究表明,当使用高质量参考答案时,BLEU与人类偏好的一致率可达74.2%,几乎与复杂的奖励模型相当。基于此,团队开发的BLEUBERI方法在多个基准测试中表现与传统奖励模型方法相当,且在事实准确性方面表现更佳。这一发现为语言模型对齐提供了更经济高效的途径,无需大量人类标注数据和复杂的奖励模型训练。