最新文章
腾讯推出AT?PO:让AI智能体像人类一样一步步思考和行动

腾讯推出AT?PO:让AI智能体像人类一样一步步思考和行动

腾讯联合多所高校推出AT?PO框架,通过熵引导树扩展、逐步奖励分配和专用策略优化三大创新,解决了AI智能体训练中探索不充分、奖励稀疏、学习方式不匹配等关键问题。实验显示该方法在七个基准测试中平均提升1.84个百分点,特别适合多步推理任务,为未来智能助手技术发展奠定重要基础。

当夜晚降临,手机拍照不再"见光死":MediaTek与台湾学者联手破解夜间白平衡难题

当夜晚降临,手机拍照不再"见光死":MediaTek与台湾学者联手破解夜间白平衡难题

这项由MediaTek公司、台湾大学和阳明交通大学联合开展的研究,首次将强化学习技术引入夜间拍照的自动白平衡领域。研究团队开发了RL-AWB框架,包含专门的夜间色彩算法SGP-LRD和智能参数调优系统,能让相机在复杂夜间光线下自动调整到最佳拍摄参数。实验结果显示,该技术不仅在单一设备上表现优异,更重要的是在不同品牌相机间具有出色的适应性,仅需5张训练图片就能达到专业水准。研究还发布了首个多相机夜间色彩数据集LEVI,为行业标准建立奠定基础。

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集,让AI像人类一样自然地说话和编辑语音

IDEA研究院发布LEMAS:首个15万小时多语言语音数据集,让AI像人类一样自然地说话和编辑语音

IDEA研究院发布了LEMAS项目,这是目前最大的开源多语言语音数据集,包含超过15万小时的语音数据,覆盖10种主要语言,每个词都有精确时间戳标注。基于此数据集,研究团队开发了LEMAS-TTS语音合成模型和LEMAS-Edit语音编辑模型,在多语言语音生成和编辑任务上都实现了显著性能提升,为AI语音技术的发展奠定了重要基础。

阿里巴巴联合上海交通大学:一个训练样本就能让AI变"学霸"的惊人发现

阿里巴巴联合上海交通大学:一个训练样本就能让AI变"学霸"的惊人发现

阿里巴巴联合上海交通大学发现,通过强化学习训练AI时,一个精心选择的数学样本就能让模型在物理、化学、生物等多个领域都获得显著提升。研究团队将此现象称为"博学学习",并创造出融合多学科知识的"超级样本",其效果超越了使用数千个样本的传统训练方法。这一发现颠覆了"数据越多越好"的传统观念,为AI训练开辟了"样本工程"的新道路。

马德里康普顿斯大学首创VERSE方法:让AI学会像人一样"看懂"文档的视觉密码

马德里康普顿斯大学首创VERSE方法:让AI学会像人一样"看懂"文档的视觉密码

马德里康普顿斯大学提出VERSE方法,首次让研究者能够"透视"AI的视觉理解过程。该方法颠覆了传统训练理念,发现评价数据质量的标准应从"人眼觉得逼真"转为"符合AI认知需求"。实验显示,经VERSE优化的本地模型在文档理解任务上超越了GPT-4等商业服务,为AI训练开辟了科学化新路径。

浙江大学最新研究:让AI像人类一样"转头看"来回答问题,突破传统视觉理解局限

浙江大学最新研究:让AI像人类一样"转头看"来回答问题,突破传统视觉理解局限

浙江大学联合多所高校发表的最新研究提出了"视角链"技术,让AI能够像人类一样主动调整观察角度来理解三维场景。该方法突破了传统AI只能处理固定视角图片的局限,通过粗粒度视角选择和精细化调整两个阶段,让AI能够主动探索环境并收集信息。实验显示该技术平均提升11.56%的性能,具备测试时扩展特性,为智能家居、自动驾驶等领域提供了新的技术路径。

澳大利亚国立大学发现:攻击AI视觉模型只需要操控20%的关键词汇

澳大利亚国立大学发现:攻击AI视觉模型只需要操控20%的关键词汇

澳大利亚国立大学研究团队发现,当前主流AI视觉语言模型存在严重安全漏洞:攻击者仅需操控20%的关键词汇位置,就能让AI产生有害内容。这种"高熵攻击"具有强传染性,可在不同AI模型间转移,成功率达35-49%。研究揭示了AI文本生成过程中的根本脆弱性,对自动驾驶、医疗诊断等关键应用领域构成潜在威胁,呼吁行业重视AI安全防护。

AI学会玩游戏,还能像人类一样思考因果关系

AI学会玩游戏,还能像人类一样思考因果关系

Player2公司研究团队开发出名为P2P的通用游戏AI系统,能同时掌握多种3D游戏并展现类人因果推理能力。研究基于超过8300小时高质量游戏数据,训练了最大12亿参数的模型,发现随着模型规模和数据增加,AI的因果推理能力显著提升。系统可在消费级显卡上实时运行,研究团队已完全开源所有数据、代码和模型,为AI游戏技术发展做出重要贡献。

高通AI研究团队让图像生成快1.7倍:大胆颠覆传统,像搭积木一样生成高清图片

高通AI研究团队让图像生成快1.7倍:大胆颠覆传统,像搭积木一样生成高清图片

高通AI研究团队提出MuLo-SD多尺度局部推测解码框架,通过"先画草图再添细节"的创新策略,让AI图像生成速度提升1.7倍。该技术采用小模型生成低分辨率图像、专用放大器转换为高分辨率预测、大模型验证修正的协作模式,并引入局部纠错机制,解决了传统逐像素生成的效率瓶颈,为快速高质量图像生成提供新思路。

伊利诺伊大学香槟分校团队打造AI助手:让机器像人一样记住你的偏好

伊利诺伊大学香槟分校团队打造AI助手:让机器像人一样记住你的偏好

伊利诺伊大学香槟分校研究团队开发了具有记忆能力的AI助手,能够学习并记住用户的交互偏好。通过多会话协作测试平台和强化学习训练,AI助手在长期合作中表现出持续改进,任务成功率提升3-5%,用户纠正行为减少50%以上。19名真实用户验证实验证实了该技术的实用性,为实现真正的人机长期协作奠定了基础。

高通AI研究院让视频生成提速5倍:金字塔结构如何重塑AI视频制作

高通AI研究院让视频生成提速5倍:金字塔结构如何重塑AI视频制作

高通AI研究院开发出PyramidalWan技术,通过金字塔结构将AI视频生成速度提升5倍。该技术先在低分辨率下构建视频框架,再逐层添加细节,计算成本降低78%的同时保持视频质量。研究团队还开发了进一步的优化方案,最终将计算成本压缩至原来的2%,为AI视频生成的普及和实时应用开辟了新路径。

中科大团队打造MINED:让AI真正理解"今夕是何年"的多模态时间感知基准测试

中科大团队打造MINED:让AI真正理解"今夕是何年"的多模态时间感知基准测试

中科大等高校联合开发MINED基准测试,专门评估AI模型的时间感知能力。研究发现,即使最优秀的AI模型在时间敏感知识理解方面仍存在显著不足,平均得分仅63分。该测试涵盖六个维度和2104个知识样本,揭示了当前AI技术在处理时间相关信息时的局限性,为未来AI时间感知能力的提升提供了重要评估工具。

中国科学技术大学等机构联合开发:让AI也能"学新忘旧"的革命性方法KORE横空出世

中国科学技术大学等机构联合开发:让AI也能"学新忘旧"的革命性方法KORE横空出世

这项由中国科学技术大学等机构联合开展的研究解决了大型多模态AI模型的核心难题——如何在学习新知识的同时保持旧知识。KORE方法通过知识导向增强和约束机制,实现了AI的持续学习能力,在多项测试中表现优异,为AI技术的实际应用开辟了新道路。

扩散语言模型中的注意力"引水渠":罗马大学揭示AI语言生成的神秘运作机制

扩散语言模型中的注意力"引水渠":罗马大学揭示AI语言生成的神秘运作机制

这项由罗马大学主导的研究首次深入探索了扩散语言模型的注意力分配机制,发现了与传统自回归模型截然不同的"动态注意力汇聚"现象。研究团队分析了三个主要开源模型,发现扩散模型中的注意力汇聚点会随生成过程移动,且对人为干预表现出强韧性,为AI语言生成技术的发展提供了重要理论基础。

MIT团队推出AlphaOPT:让人工智能学会解决复杂优化问题的"智慧图书馆"

MIT团队推出AlphaOPT:让人工智能学会解决复杂优化问题的"智慧图书馆"

MIT研究团队开发了AlphaOPT系统,这是一个能够从有限样本中学习优化建模的智能框架。该系统通过构建自我进化的经验库,仅从问题答案就能学会解题方法,在分布外测试中显著超越现有方法。AlphaOPT采用双阶段学习循环:从失败中提取结构化经验,然后持续优化经验的适用条件。系统知识完全透明可解释,为AI在复杂决策领域的应用开辟了新路径。

南加州大学团队揭秘:人工智能为何在图形连通性问题上"偷懒学坏"

南加州大学团队揭秘:人工智能为何在图形连通性问题上"偷懒学坏"

南加州大学和杜克大学研究团队发现,Transformer模型在学习图形连通性时存在"偷懒"现象,倾向于学习简单启发式方法而非正确算法。研究揭示了模型容量的精确边界(3^L定律),并发现训练动态呈现算法与启发式通道的竞争模式。团队提出"数据杠杆"方法,通过限制训练数据复杂度成功引导模型学习正确算法,为AI可靠性训练提供新思路。

机器生成文本检测器竟然和隐私攻击技术如此相似——东京理工大学与宾夕法尼亚大学研究揭示两大领域的惊人联系

机器生成文本检测器竟然和隐私攻击技术如此相似——东京理工大学与宾夕法尼亚大学研究揭示两大领域的惊人联系

东京理工大学与宾夕法尼亚大学研究团队发现,成员推理攻击和机器文本检测这两种看似无关的AI安全技术在底层原理上高度相似。通过大规模实验验证了跨任务技能迁移现象,其中Binoculars检测器在两个任务中都表现卓越。研究提供了统一的理论框架,证明最优方法在数学上是相同的,为AI安全技术发展提供了新思路。

NVIDIA全新ProfBench:终于有人为AI设计了一份"职场博士考试"

NVIDIA全新ProfBench:终于有人为AI设计了一份"职场博士考试"

NVIDIA研究团队开发了ProfBench,这是首个由专家设计的跨领域专业AI评测平台,涵盖化学博士、物理博士、金融MBA和咨询MBA四大领域。该平台通过7000多个专家标准评估AI在真实职场场景中的表现,发现即使最先进的GPT-5模型也只达到65.9%的分数。研究还开发了成本降低2-3个数量级的AI评判系统,为AI专业能力评估提供了更科学实用的标准。

微软研究院重磅突破:让AI在长篇文本中像侦探一样推理思考

微软研究院重磅突破:让AI在长篇文本中像侦探一样推理思考

微软研究院开发了名为LoongRL的AI训练方法,通过独创的KeyChain技术让人工智能学会在长文档中进行复杂推理。该方法让AI自发形成"计划-检索-推理-核查"的思维模式,使140亿参数的小模型在长文档推理任务上达到74.2分,几乎追平了参数量更大的顶级模型。这项技术为AI助手在法律、医疗、科研等领域的实际应用开辟了新路径。

OPPO AI团队开发智能手机管家训练秘方:让AI学会合理搭配不同任务数据的神奇配方

OPPO AI团队开发智能手机管家训练秘方:让AI学会合理搭配不同任务数据的神奇配方

OPPO AI中心开发的DaMo数据混合优化器,通过智能预测不同训练数据组合的效果,解决了多任务AI系统训练中的核心难题。该技术仅需少量实验样本就能准确预测最优数据配置,大幅降低训练成本。同时构建的PhoneAgentBench测试平台为手机AI助手提供了全面的能力评估标准,推动了移动AI技术的标准化发展。