最新文章
脑部核磁共振正片加强!波尔多大学研发通过强化学习驱动大语言模型的神经退行性痴呆症可解释诊断框架

脑部核磁共振正片加强!波尔多大学研发通过强化学习驱动大语言模型的神经退行性痴呆症可解释诊断框架

法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。

揭秘事实核查的不确定性:哥本哈根大学研究团队如何让AI解释证据冲突

揭秘事实核查的不确定性:哥本哈根大学研究团队如何让AI解释证据冲突

这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。

SynLogic:香港科技大学与MiniMax联合开发的逻辑推理数据集,让AI更懂得思考

SynLogic:香港科技大学与MiniMax联合开发的逻辑推理数据集,让AI更懂得思考

来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。

大型语言模型的一步生成能力:揭秘人工智能"一口气"说故事的秘密 - AIRI与Skoltech研究成果

大型语言模型的一步生成能力:揭秘人工智能"一口气"说故事的秘密 - AIRI与Skoltech研究成果

这项研究揭示了大型语言模型的惊人能力:只需两个特殊训练的向量,冻结的语言模型就能在一次计算中生成数百个准确词汇,而非传统的逐词生成。研究者发现,这种能力要求特定的输入排列方式,且生成速度比自回归方法快约279倍。这一发现不仅展示了语言模型未被充分探索的并行生成潜力,还为快速文本重建开辟了新方向。

深度解析:腾讯混元团队《先走后跑》——利用强化学习实现大模型简洁推理的新突破

深度解析:腾讯混元团队《先走后跑》——利用强化学习实现大模型简洁推理的新突破

腾讯混元团队提出的"ConciseR"是一种通过两阶段强化学习实现大模型简洁推理的新方法。研究遵循"先走后跑"原则,先确保模型具备准确推理能力,再优化输出简洁性。第一阶段通过改进的群体相对策略优化(GRPO++)提升推理能力,第二阶段通过长度感知的群体相对策略优化(L-GRPO)减少输出长度。实验结果显示,该方法在AIME、MATH-500等多个基准测试中既减少了输出长度(平均20%以上),又保持或提高了准确率,展现出高效率-高准确率的理想平衡。

压缩还是行动?实测告诉你压缩后的大语言模型是否真能胜任Agent任务

压缩还是行动?实测告诉你压缩后的大语言模型是否真能胜任Agent任务

这项由香港科技大学团队开展的研究首次全面评估了压缩对大语言模型Agent能力的影响。研究发现,虽然4位量化能较好地保留工作流生成和工具使用能力(仅下降1%-3%),但在实际应用中性能下降达10%-15%。团队提出的ACBench基准测试横跨工具使用、工作流生成、长文本理解和实际应用四大能力,评估了不同压缩方法对15种模型的影响。结果显示,AWQ量化效果最佳,蒸馏模型在Agent任务上表现不佳,大型模型对压缩更具韧性。研究还提出ERank等创新分析方法,为实际部署提供了切实指导。

R1-Searcher++:用强化学习激励大语言模型动态获取知识的新框架

R1-Searcher++:用强化学习激励大语言模型动态获取知识的新框架

这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。

AutoRefine:让大语言模型主动搜索并优化信息的全新范式

AutoRefine:让大语言模型主动搜索并优化信息的全新范式

这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。

当广告成为武器:解密中科院团队开发的AdInject攻击,揭示网页代理漏洞

当广告成为武器:解密中科院团队开发的AdInject攻击,揭示网页代理漏洞

这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。

UNITE:东北大学和快手科技合作打造的通用多模态信息检索系统

UNITE:东北大学和快手科技合作打造的通用多模态信息检索系统

东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。

多模态大语言模型深受模态偏差影响:理解、原因与解决方案

多模态大语言模型深受模态偏差影响:理解、原因与解决方案

这篇研究论文揭示了多模态大语言模型(MLLMs)存在严重的模态偏差问题,即模型过度依赖文本信息而忽视图像等其他模态。研究团队通过理论分析和实验证明,这种偏差主要源于三个因素:数据集不平衡、模态骨干能力不对称以及训练目标设计不当。他们提出了系统的研究路线图和解决方案,包括增强视觉模态在数据集中的贡献、改变模型关注点和应用偏好优化策略。未来研究方向则包括开发更客观的评估指标、探索更多模态组合中的偏差问题以及应用可解释AI技术深入分析偏差机制。

ComfyMind:通过树状规划和反馈机制打造通用生成系统

ComfyMind:通过树状规划和反馈机制打造通用生成系统

ComfyMind是香港科技大学研究团队开发的一个协作式AI系统,旨在解决当前开源通用生成系统面临的稳定性和规划挑战。该系统基于ComfyUI平台,引入了两项关键创新:语义工作流接口(SWI)和带本地反馈执行的搜索树规划机制。SWI将低级节点图抽象为语义函数,而搜索树规划将生成过程视为分层决策任务。实验表明,ComfyMind在ComfyBench、GenEval和Reason-Edit三个基准测试中均大幅超越开源基线,并达到与GPT-Image-1相当的性能,为开源通用生成AI开辟了新路径。

热带几何遇上人工智能:用"热带注意力"机制解决组合算法问题的突破性研究

热带几何遇上人工智能:用"热带注意力"机制解决组合算法问题的突破性研究

这项研究介绍了一种名为"热带注意力"的新型注意力机制,专为解决神经网络在组合算法推理中的困境而设计。传统注意力机制使用softmax函数产生平滑的概率分布,无法精确捕捉组合算法所需的锐利决策边界。

RAG系统真的受位置偏见影响吗?—来自罗马大学和技术创新研究所的最新研究揭示

RAG系统真的受位置偏见影响吗?—来自罗马大学和技术创新研究所的最新研究揭示

这项研究揭示了RAG系统中位置偏见的真实影响——虽然在受控环境中明显存在,但在实际应用中却微不足道。研究人员发现,先进的检索系统不仅会找出相关内容,还会将具有干扰性的段落排在前列,超过60%的查询中至少包含一个高度干扰段落。由于相关和干扰内容同时出现在检索结果前列,位置偏见对两者都有惩罚作用,从而抵消了偏见效应。因此,基于位置偏好的复杂排序策略并不比随机排序更有效,这一发现将优化方向从段落排序重新导向检索质量提升和模型抗干扰能力增强。

让视频大模型更聪明:哈工大团队开发的VerIPO让模型推理更深更长

让视频大模型更聪明:哈工大团队开发的VerIPO让模型推理更深更长

哈工大(深圳)团队提出VerIPO方法,通过验证器引导的迭代策略优化提升视频大语言模型的长推理能力。该方法创新性地在GRPO和DPO训练阶段之间引入验证器,筛选高质量推理样本,有效解决了传统强化学习方法在推理链质量和上下文一致性方面的不足。实验表明,VerIPO训练的7B参数模型超越了包括Kimi-VL(16B)和Video-R1在内的更大模型,在VSI-Bench等基准测试中取得41.8%的准确率,同时生成更长、更一致的推理链,为视频大模型的深度推理能力培养提供了高效可行的新方法。

GraLoRA:解决大型语言模型微调瓶颈的突破性方法 — SqueezeBits和POSTECH联合研究

GraLoRA:解决大型语言模型微调瓶颈的突破性方法 — SqueezeBits和POSTECH联合研究

SqueezeBits和POSTECH联合研究团队提出了GraLoRA,一种改进的参数高效微调方法,解决了传统LoRA在高秩设置下的表现瓶颈。通过将权重矩阵分解成多个独立的子块,每块配备自己的低秩适配器,GraLoRA有效增加了表达能力并减少了梯度纠缠问题。实验证明,这种方法在代码生成任务中提升了高达8.5%的Pass@1准确率,并在常识推理任务中持续优于现有方法。GraLoRA无需额外计算成本,为大型语言模型的定制化提供了更高效的解决方案。

rStar-Coder:微软亚洲研究院打造大规模验证数据集,小模型也能实现卓越代码推理能力

rStar-Coder:微软亚洲研究院打造大规模验证数据集,小模型也能实现卓越代码推理能力

微软亚洲研究院研究团队开发的rStar-Coder通过构建大规模验证数据集,显著提升了语言模型的代码推理能力。该数据集包含418K个竞赛级代码问题和580K个长推理解决方案,每个都经过多样化测试案例验证。关键创新在于三步测试输入生成方法和相互验证机制,确保了数据的高质量和可靠性。实验表明,即使是小型模型也能达到卓越性能——Qwen2.5-7B从17.4%提升至57.3%,甚至在USACO奥林匹克竞赛中超越了规模更大的模型,证明了高质量训练数据比模型规模更重要。

解锁多模态推理力量:华中科技大学推出MMMR基准,全面评测模型思考能力

解锁多模态推理力量:华中科技大学推出MMMR基准,全面评测模型思考能力

华中科技大学与利哈伊大学研究团队开发的MMMR基准是首个专门评估多模态大语言模型推理思考过程的综合工具。通过1,083个跨六大领域的高难度推理任务和创新的推理过程评估管道,研究发现即使最先进的模型在推理任务上也与人类存在约10%的差距。研究揭示了答案准确性与推理质量间的脱节:模型常出现思考不一致(41.5%)、过度思考(20.5%)等问题。这一基准不仅评估答案正确性,更深入分析思考质量,为提升AI系统的可靠性和透明度提供了重要方向。

UI-Genie: 一种自我改进的方法,通过迭代提升基于多模态大语言模型的移动端GUI智能体

UI-Genie: 一种自我改进的方法,通过迭代提升基于多模态大语言模型的移动端GUI智能体

UI-Genie是一个创新的自我改进框架,解决了GUI智能体面临的两大挑战:轨迹验证困难和高质量训练数据缺乏。研究团队开发了专用奖励模型UI-Genie-RM,采用图像-文本交错架构有效处理历史上下文,并统一了步骤级和任务级奖励评估。通过精心设计的数据生成策略和迭代自我改进,该框架无需人工标注即可创建高质量合成轨迹。实验结果显示,经过三轮数据-模型自我改进后,UI-Genie在多个基准测试上达到了最先进水平。该研究已开源全部实现和数据集,为GUI智能体研究提供重要资源。

主动感知:浙江大学团队ACTIVE-O3让多模态大语言模型"学会看哪里"

主动感知:浙江大学团队ACTIVE-O3让多模态大语言模型"学会看哪里"

浙江大学和蚂蚁集团的研究团队开发了ACTIVE-O3,一种创新框架,赋予多模态大语言模型"主动感知"能力,使AI能够智能地决定"看哪里"和"怎么看"。基于群体相对策略优化(GRPO)构建,该系统采用两阶段策略,先选择关注区域,再执行任务。实验表明,ACTIVE-O3在小物体检测、密集物体定位和交互式分割等任务上显著优于现有方法,并展示出强大的零样本推理能力。该研究为AI系统提供了更接近人类认知的视觉探索能力,对自动驾驶、医疗诊断等领域具有重要应用价值。