人工智能 关键字列表
基于放射影像的临床诊断中,AI模型尚未达到实际应用水平

基于放射影像的临床诊断中,AI模型尚未达到实际应用水平

新研究通过 DeepTumorVQA 基准测试表明,尽管 AI 在基本识别和测量任务上有一定表现,但在复杂医学推理上仍远落后于临床要求,难以取代医生的诊断判断。

NOVER:语言模型的无验证器强化学习激励训练

NOVER:语言模型的无验证器强化学习激励训练

NOVER是一种创新的无验证器强化学习框架,解决了传统激励训练依赖外部验证器的限制。由伦敦国王学院研究团队开发,它通过计算"推理困惑度"作为奖励代理,使语言模型能在任何文本任务中自主发展推理能力。实验表明,NOVER在一般推理、创意写作、社会智能和多语言能力等多种任务上均优于基线方法,甚至使3B模型接近从671B模型蒸馏版本的性能。此外,其灵活性还支持"反向激励训练"等创新应用,为语言模型训练开辟了新方向。

思维增强型策略优化:搭建外部指导与内部能力之间的桥梁 - 清华大学研究团队开创强化学习新范式

思维增强型策略优化:搭建外部指导与内部能力之间的桥梁 - 清华大学研究团队开创强化学习新范式

清华大学研究团队开发的"思维增强型策略优化"(TAPO)通过将外部高级思维模式整合到强化学习中,显著提升了大语言模型的推理能力。这种方法从仅500个样本中抽象出思维模板,在AIME、AMC和Minerva Math等基准测试中分别比传统方法提高了99%、41%和17%的性能,同时增强了模型的可解释性、稳定性和泛化能力,为AI推理研究开辟了新方向。

Trinity-RFT:阿里巴巴开源的通用强化微调框架,让大语言模型拥有"经验学习"能力

Trinity-RFT:阿里巴巴开源的通用强化微调框架,让大语言模型拥有"经验学习"能力

Trinity-RFT是阿里巴巴团队开发的开源框架,专为大语言模型的强化微调设计。它采用三位一体结构,包含RFT核心(探索者、训练者和缓冲区)、智能体-环境交互和数据流水线三大核心组件。框架支持同步/异步、在线/离线和策略内/外等多种训练模式,能优雅处理复杂的现实场景如延迟反馈和环境失败。Trinity-RFT还提供了丰富的数据处理功能和人机协作界面,并通过Trinity-Studio实现无代码操作。

QwenLong-L1:阿里巴巴用强化学习打造的长文本推理模型,超越OpenAI-o3-mini

QwenLong-L1:阿里巴巴用强化学习打造的长文本推理模型,超越OpenAI-o3-mini

阿里巴巴Qwen-Doc团队推出的QwenLong-L1框架通过强化学习解决了大型语言模型长文本推理的关键挑战。该框架采用渐进式上下文扩展策略,包含热身监督微调、课程引导分阶段强化学习和难度感知回顾采样三大核心组件。实验表明,QwenLong-L1-32B在七项长文本文档问答基准测试上平均提升5.1个百分点,超越OpenAI-o3-mini等旗舰模型,达到与Claude-3.7-Sonnet-Thinking相当的性能水平,为发展具备强大上下文理解和推理能力的实用长文本语言模型开辟了新路径。

顽固的智能:KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

顽固的智能:KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

韩国科学技术院(KAIST)的研究团队发现了大型语言模型中一个令人担忧的现象:"推理刚性"。这种现象表现为即使是最先进的AI模型,如GPT-4o或Qwen3,也会在解决问题时固执地坚持熟悉的推理模式,甚至会"修改"用户明确给出的条件。研究人员创建了ReasoningTrap诊断数据集,揭示这种行为可分为三类:解释过载、输入不信任和部分指令关注。令人惊讶的是,专门为复杂推理训练的模型比基础模型表现出更强的"固执"倾向,这提醒我们在追求AI推理能力的同时,不应忽视其遵循指令的灵活性。

旋转位置编码之舞:比尔肯特大学研究团队开创无需训练的视频动作迁移新技术

旋转位置编码之舞:比尔肯特大学研究团队开创无需训练的视频动作迁移新技术

比尔肯特大学研究团队提出RoPECraft,一种无需训练的视频动作迁移方法,通过巧妙操作扩散变换器中的旋转位置编码实现。该方法首先从参考视频提取光流信息,用于扭曲RoPE张量;再通过流匹配优化和相位约束正则化,确保生成视频精确跟随参考动作,同时保持视觉质量。与需要大量计算资源的现有方法相比,RoPECraft不需要模型再训练,大幅降低了计算成本,同时在动作保真度和视频质量上超越了最新技术,为AI视频创作提供了高效可行的动作控制解决方案。

Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

Think-RM是一项创新研究,通过使奖励模型具备"长程思考"能力来提升AI系统对人类偏好的理解。传统的奖励模型要么仅提供分数(BT RM),要么依赖浅层思考(GenRM),而Think-RM则模拟人类深度分析问题的过程,支持自我反思、假设推理和发散思维。实验表明,这种方法在复杂推理任务上显著优于现有方法,在RM-Bench上提升8%。结合创新的配对式RLHF流程,Think-RM不仅拓展了奖励模型设计空间,还为AI系统与人类期望的更精准对齐提供了新范式。

SAKURA:探索大型音频语言模型如何"听懂"并"思考"——首个评估音频多跳推理能力的基准测试

SAKURA:探索大型音频语言模型如何"听懂"并"思考"——首个评估音频多跳推理能力的基准测试

台湾国立大学研究团队开发了SAKURA,首个专门评估大型音频语言模型多跳推理能力的基准测试。研究发现,即使最先进的模型也面临两大挑战:一是在识别某些音频属性(如情绪)时准确率不高;二是即使能正确识别音频信息,也难以基于这些信息进行多步推理。对比实验显示,当同样的信息以文本形式提供时,模型推理能力显著提升,表明当前模型未能有效整合音频表征进入推理过程,这为未来开发真正能"听懂并思考"的AI系统提供了重要方向。

用形式验证工具训练推理验证器:宾夕法尼亚州立大学研究团队让AI自动检查每一步推理是否正确

用形式验证工具训练推理验证器:宾夕法尼亚州立大学研究团队让AI自动检查每一步推理是否正确

这项由宾夕法尼亚州立大学研究团队开发的FOVER方法解决了AI推理验证器训练中的两大难题:数据标注成本高和应用范围有限。研究者利用形式验证工具(如Z3和Isabelle)自动检查AI在形式逻辑和定理证明任务中的每一步推理是否正确,创建了高质量的训练数据集。令人惊喜的是,经过这种训练的验证器不仅无需人工标注数据,还能泛化到各类推理任务,在12个不同基准测试中表现优异,甚至在某些任务上超越了使用人工标注训练的验证器。这为提高AI推理能力提供了一条高效、通用的新途径。

多空间理解新突破:Meta研究团队打造多帧空间理解的多模态大语言模型

多空间理解新突破:Meta研究团队打造多帧空间理解的多模态大语言模型

这篇研究介绍了Meta团队开发的Multi-SpatialMLLM,一种能够理解多帧图像空间关系的多模态大语言模型。研究者创建了首个大规模多帧空间理解数据集MultiSPA,包含超过2700万个样本,并在此基础上训练模型掌握深度感知、视觉对应和动态感知能力。实验表明,该模型显著超越了现有系统,在空间理解任务上平均提升36%,并展示出多任务协同效应和能力涌现现象,为机器人学习等实际应用提供了新的可能性。

Nvidia 与瑞典财团合作:AI 工厂重新定义经济

Nvidia 与瑞典财团合作:AI 工厂重新定义经济

本文介绍了 AI 工厂如何通过整合芯片制造、超级计算及数据中心部署,推动全球企业转型升级。文中详细阐述了 NVIDIA 与国际伙伴在技术创新、产业变革和可持续发展方面的探索与挑战。

VAST Data 挑战企业 AI 工厂

VAST Data 挑战企业 AI 工厂

VAST Data 推出了一款集成 AI 操作系统,通过整合存储、实时数据处理、向量数据库和原生代理编排等功能,旨在简化复杂的 AI 基础设施部署。该方案有望降低部署难度及延时,但其与 Nvidia 深度绑定以及封闭式整合可能限制使用弹性,面临开放模块化生态系统的挑战。

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

本文介绍了现阶段炙手可热的 vibe 编码趋势,重点解读 Google 推出的实验产品 Stitch。该工具通过 AI 自动生成 UI 界面初稿,支持快速设计并导出至 Figma,虽在 beta 版中用户反馈参差不齐,但预示着 AI 助力编码的新方向。

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

这项研究提出了名为"Let Androids Dream"的创新框架,解决了多模态大语言模型在理解图像隐喻方面的核心难题——上下文缺失。通过模拟人类认知过程的三阶段系统(感知、搜索、推理),该框架即使使用轻量级GPT-4o-mini模型,也能在英语和中文图像寓意理解任务中达到最先进性能,在开放式问题上甚至超越GPT-4o模型36.7%。这一成果不仅推动了视觉-语言推理技术的发展,还为未来AI系统理解人类文化中的隐喻和象征提供了新方向。

外包信心:下一个大热 AI 趋势?

外包信心:下一个大热 AI 趋势?

文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制,实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问,加速大规模模型推理。

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

研究表明,科技企业正利用AI减少应届生招聘,同时增加有经验人才的引进;掌握AI技能将成为新卒求职的关键。

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce以80亿美元收购Informatica,整合双方数据管理与agentic AI优势,构建企业统一数据平台,加速低代码AI方案落地。

OnePlus 全力投身 AI 革新

OnePlus 全力投身 AI 革新

OnePlus 推出多项 AI 功能,包括语音记录、翻译、智能拍照及屏幕录制,并通过全新 Plus Key 整合这些体验,将率先在印度市场的 OnePlus 13 系列手机中应用。