人工智能 关键字列表
Trinity-RFT:阿里巴巴开源的通用强化微调框架,让大语言模型拥有"经验学习"能力

Trinity-RFT:阿里巴巴开源的通用强化微调框架,让大语言模型拥有"经验学习"能力

Trinity-RFT是阿里巴巴团队开发的开源框架,专为大语言模型的强化微调设计。它采用三位一体结构,包含RFT核心(探索者、训练者和缓冲区)、智能体-环境交互和数据流水线三大核心组件。框架支持同步/异步、在线/离线和策略内/外等多种训练模式,能优雅处理复杂的现实场景如延迟反馈和环境失败。Trinity-RFT还提供了丰富的数据处理功能和人机协作界面,并通过Trinity-Studio实现无代码操作。

QwenLong-L1:阿里巴巴用强化学习打造的长文本推理模型,超越OpenAI-o3-mini

QwenLong-L1:阿里巴巴用强化学习打造的长文本推理模型,超越OpenAI-o3-mini

阿里巴巴Qwen-Doc团队推出的QwenLong-L1框架通过强化学习解决了大型语言模型长文本推理的关键挑战。该框架采用渐进式上下文扩展策略,包含热身监督微调、课程引导分阶段强化学习和难度感知回顾采样三大核心组件。实验表明,QwenLong-L1-32B在七项长文本文档问答基准测试上平均提升5.1个百分点,超越OpenAI-o3-mini等旗舰模型,达到与Claude-3.7-Sonnet-Thinking相当的性能水平,为发展具备强大上下文理解和推理能力的实用长文本语言模型开辟了新路径。

顽固的智能:KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

顽固的智能:KAIST研究团队揭示大型推理模型如何任性"修改"用户指令

韩国科学技术院(KAIST)的研究团队发现了大型语言模型中一个令人担忧的现象:"推理刚性"。这种现象表现为即使是最先进的AI模型,如GPT-4o或Qwen3,也会在解决问题时固执地坚持熟悉的推理模式,甚至会"修改"用户明确给出的条件。研究人员创建了ReasoningTrap诊断数据集,揭示这种行为可分为三类:解释过载、输入不信任和部分指令关注。令人惊讶的是,专门为复杂推理训练的模型比基础模型表现出更强的"固执"倾向,这提醒我们在追求AI推理能力的同时,不应忽视其遵循指令的灵活性。

旋转位置编码之舞:比尔肯特大学研究团队开创无需训练的视频动作迁移新技术

旋转位置编码之舞:比尔肯特大学研究团队开创无需训练的视频动作迁移新技术

比尔肯特大学研究团队提出RoPECraft,一种无需训练的视频动作迁移方法,通过巧妙操作扩散变换器中的旋转位置编码实现。该方法首先从参考视频提取光流信息,用于扭曲RoPE张量;再通过流匹配优化和相位约束正则化,确保生成视频精确跟随参考动作,同时保持视觉质量。与需要大量计算资源的现有方法相比,RoPECraft不需要模型再训练,大幅降低了计算成本,同时在动作保真度和视频质量上超越了最新技术,为AI视频创作提供了高效可行的动作控制解决方案。

Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

Think-RM:用长程思考推理提升生成式奖励模型的全新思路——来自乔治亚理工和亚马逊的联合研究

Think-RM是一项创新研究,通过使奖励模型具备"长程思考"能力来提升AI系统对人类偏好的理解。传统的奖励模型要么仅提供分数(BT RM),要么依赖浅层思考(GenRM),而Think-RM则模拟人类深度分析问题的过程,支持自我反思、假设推理和发散思维。实验表明,这种方法在复杂推理任务上显著优于现有方法,在RM-Bench上提升8%。结合创新的配对式RLHF流程,Think-RM不仅拓展了奖励模型设计空间,还为AI系统与人类期望的更精准对齐提供了新范式。

SAKURA:探索大型音频语言模型如何"听懂"并"思考"——首个评估音频多跳推理能力的基准测试

SAKURA:探索大型音频语言模型如何"听懂"并"思考"——首个评估音频多跳推理能力的基准测试

台湾国立大学研究团队开发了SAKURA,首个专门评估大型音频语言模型多跳推理能力的基准测试。研究发现,即使最先进的模型也面临两大挑战:一是在识别某些音频属性(如情绪)时准确率不高;二是即使能正确识别音频信息,也难以基于这些信息进行多步推理。对比实验显示,当同样的信息以文本形式提供时,模型推理能力显著提升,表明当前模型未能有效整合音频表征进入推理过程,这为未来开发真正能"听懂并思考"的AI系统提供了重要方向。

用形式验证工具训练推理验证器:宾夕法尼亚州立大学研究团队让AI自动检查每一步推理是否正确

用形式验证工具训练推理验证器:宾夕法尼亚州立大学研究团队让AI自动检查每一步推理是否正确

这项由宾夕法尼亚州立大学研究团队开发的FOVER方法解决了AI推理验证器训练中的两大难题:数据标注成本高和应用范围有限。研究者利用形式验证工具(如Z3和Isabelle)自动检查AI在形式逻辑和定理证明任务中的每一步推理是否正确,创建了高质量的训练数据集。令人惊喜的是,经过这种训练的验证器不仅无需人工标注数据,还能泛化到各类推理任务,在12个不同基准测试中表现优异,甚至在某些任务上超越了使用人工标注训练的验证器。这为提高AI推理能力提供了一条高效、通用的新途径。

多空间理解新突破:Meta研究团队打造多帧空间理解的多模态大语言模型

多空间理解新突破:Meta研究团队打造多帧空间理解的多模态大语言模型

这篇研究介绍了Meta团队开发的Multi-SpatialMLLM,一种能够理解多帧图像空间关系的多模态大语言模型。研究者创建了首个大规模多帧空间理解数据集MultiSPA,包含超过2700万个样本,并在此基础上训练模型掌握深度感知、视觉对应和动态感知能力。实验表明,该模型显著超越了现有系统,在空间理解任务上平均提升36%,并展示出多任务协同效应和能力涌现现象,为机器人学习等实际应用提供了新的可能性。

Nvidia 与瑞典财团合作:AI 工厂重新定义经济

Nvidia 与瑞典财团合作:AI 工厂重新定义经济

本文介绍了 AI 工厂如何通过整合芯片制造、超级计算及数据中心部署,推动全球企业转型升级。文中详细阐述了 NVIDIA 与国际伙伴在技术创新、产业变革和可持续发展方面的探索与挑战。

VAST Data 挑战企业 AI 工厂

VAST Data 挑战企业 AI 工厂

VAST Data 推出了一款集成 AI 操作系统,通过整合存储、实时数据处理、向量数据库和原生代理编排等功能,旨在简化复杂的 AI 基础设施部署。该方案有望降低部署难度及延时,但其与 Nvidia 深度绑定以及封闭式整合可能限制使用弹性,面临开放模块化生态系统的挑战。

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

人人都在追逐 vibe coding——Google 推出 Stitch,继 Jules 之后的新作

本文介绍了现阶段炙手可热的 vibe 编码趋势,重点解读 Google 推出的实验产品 Stitch。该工具通过 AI 自动生成 UI 界面初稿,支持快速设计并导出至 Figma,虽在 beta 版中用户反馈参差不齐,但预示着 AI 助力编码的新方向。

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

让机器人像人类一样解读图像寓意:上海人工智能实验室开发出人类思维启发的图像理解框架

这项研究提出了名为"Let Androids Dream"的创新框架,解决了多模态大语言模型在理解图像隐喻方面的核心难题——上下文缺失。通过模拟人类认知过程的三阶段系统(感知、搜索、推理),该框架即使使用轻量级GPT-4o-mini模型,也能在英语和中文图像寓意理解任务中达到最先进性能,在开放式问题上甚至超越GPT-4o模型36.7%。这一成果不仅推动了视觉-语言推理技术的发展,还为未来AI系统理解人类文化中的隐喻和象征提供了新方向。

外包信心:下一个大热 AI 趋势?

外包信心:下一个大热 AI 趋势?

文章探讨了借助 AI 工具实现各类场景增强(如影视中 EDITH 与现实中的 Cluely AI),提升工作与社交表现,同时引发对伦理风险的讨论。

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制,实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问,加速大规模模型推理。

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

人工智能可能已经在缩减科技行业的入门级岗位,新研究显示

研究表明,科技企业正利用AI减少应届生招聘,同时增加有经验人才的引进;掌握AI技能将成为新卒求职的关键。

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

Salesforce以80亿美元收购Informatica,整合双方数据管理与agentic AI优势,构建企业统一数据平台,加速低代码AI方案落地。

OnePlus 全力投身 AI 革新

OnePlus 全力投身 AI 革新

OnePlus 推出多项 AI 功能,包括语音记录、翻译、智能拍照及屏幕录制,并通过全新 Plus Key 整合这些体验,将率先在印度市场的 OnePlus 13 系列手机中应用。

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

Mistral AI 推出新专有 API,利用 Mistral Medium 3 模型快速集成自主生成 AI 代理。平台内置 Python 执行、图像生成、文档库 ( RAG ) 及网络搜索等功能,支持多代理协同处理复杂任务,适用于各领域应用。

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

日期碎片化:大语言模型时间推理的隐藏瓶颈,阿伯丁大学与格勒诺布尔阿尔卑斯大学联合研究揭示

这项由阿伯丁大学和格勒诺布尔阿尔卑斯大学研究者联合完成的研究揭示了大语言模型处理日期时的关键问题:现代分词器常将日期分割成无意义的碎片,如"20250312"被切分为"202"、"503"、"12",这严重影响时间推理能力。研究提出了日期碎片化率指标,创建了DATEAUGBENCH测试集,并通过内部机制分析发现,大型模型能在早期层快速"修复"碎片化日期,但其推理路径与人类理解方式显著不同,这解释了模型在处理非标准日期时的准确率下降。

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval: 让多语言模型评估像玩游戏一样简单 — KAIST与Trillion Labs联合研究突破

MUG-Eval是KAIST和Trillion Labs联合开发的创新多语言评估框架,通过让语言模型在目标语言中进行自我对话来评估其生成能力。该方法独特之处在于不依赖语言特定工具或人工标注数据,而是通过任务完成率间接衡量语言能力。研究团队测试了8种顶级语言模型在30种语言上的表现,发现其结果与传统评估方法高度一致(相关系数>0.75)。MUG-Eval揭示了模型在低资源语言上表现显著落后,并发现英语并非评估低资源语言的最佳替代。该框架理论上支持2,102种语言,为真正包容的AI评估提供了新途径。