最新文章
AI视觉推理新突破:中国团队让机器像人一样"慢思考",仅用5千个文本案例就追平顶级商业系统

AI视觉推理新突破:中国团队让机器像人一样"慢思考",仅用5千个文本案例就追平顶级商业系统

这项由中国人民大学等机构合作完成的研究提出了Virgo系统,发现仅用5000个纯文本推理案例训练就能让AI在视觉推理任务上达到顶级商业系统水平。研究证实推理能力具有跨模态通用性,为更经济高效地开发多模态AI系统指明了新方向,同时也揭示了AI感知反思能力不足的局限性。

2025华为坤灵秋季新品发布会

2025华为坤灵秋季新品发布会

2025.09.17 09:45-12:00 华为坤灵助力中小企业跃升智能化

ByteDance发现词汇表竟然也有「超量」:大语言模型的神秘增长密码

ByteDance发现词汇表竟然也有「超量」:大语言模型的神秘增长密码

ByteDance研究团队发现了大语言模型扩展的新维度:通过扩大输入词汇表可显著提升模型性能而几乎不增加计算成本。他们提出的过度词汇化变换器将输入和输出词汇表分离,输入端使用1280万词条,让400M参数模型达到10亿参数模型性能。研究发现词汇表大小与性能呈对数线性关系,为大模型优化提供了新思路。

华为诺亚方舟实验室推出颠覆性文档搜索技术:让AI在长达65页的文档中秒找所需信息

华为诺亚方舟实验室推出颠覆性文档搜索技术:让AI在长达65页的文档中秒找所需信息

华为诺亚方舟实验室推出MMDOCIR,这是首个专门针对长文档多模态信息检索的基准测试系统。该系统能够在平均65页的复杂文档中精确定位信息,不仅理解文字内容,还能解读图表、表格等视觉元素。通过对313份真实文档的测试,研究证明视觉理解方法比传统文本转换方法准确率高出15-25个百分点,为企业知识管理、法律文书检索、医疗文献查阅等领域带来革命性改进。

上海交大团队首次证实:AI思考时间越长,医学诊断越精准

上海交大团队首次证实:AI思考时间越长,医学诊断越精准

上海交通大学团队通过"推理时间扩展"技术让AI学会深度思考,在医学诊断中取得突破。研究发现AI思考时间越长诊断越准确,仅用500个样本就实现6%-11%准确率提升。AI模型展现出类似医生的临床推理能力,能进行差异诊断和证据权衡,特别在复杂罕见疾病诊断方面表现出色,为AI医学应用开辟新方向。

加州大学圣克鲁兹分校联合Adobe等机构:让AI真正懂你——用知识图谱帮助大语言模型实现个性化文本生成

加州大学圣克鲁兹分校联合Adobe等机构:让AI真正懂你——用知识图谱帮助大语言模型实现个性化文本生成

加州大学圣克鲁兹分校等机构联合开发的PGraphRAG框架,通过构建用户中心知识图谱解决了AI个性化服务的冷启动问题。该技术不再依赖单一用户历史数据,而是利用用户相似性网络实现个性化文本生成。在12项任务测试中,PGraphRAG在长文本生成上平均提升14.8%,在短文本生成上提升4.6%,为99.99%的数据稀少用户提供了个性化AI服务的可能。

AI"法官"新突破:Meta团队让机器无师自通判别图像安全问题

AI"法官"新突破:Meta团队让机器无师自通判别图像安全问题

Meta团队开发出CLUE系统,这是一种无需人工标注数据就能判断图像安全问题的AI方法。该系统通过将主观安全规则客观化、智能筛选相关规则、分解复杂条件、消除判断偏见等创新技术,在测试中达到95.9%召回率和94.8%准确率,显著超越传统方法。这项突破为内容平台提供了高效灵活的安全检测工具,有望改变网络内容审核的现状。

Meta最新突破:一个"万能选手"的强化学习算法,就像训练一个全能运动员

Meta最新突破:一个"万能选手"的强化学习算法,就像训练一个全能运动员

Meta研究团队开发了MR.Q算法,这是一种能够用单一参数设置处理多种不同强化学习任务的通用算法。该算法在118个测试环境中展现出优秀的综合性能,同时保持了高效率和轻量化特点。MR.Q巧妙结合了模型方法和无模型方法的优势,通过统一的内部表示处理不同任务类型,为构建通用人工智能系统提供了新思路。

谷歌DeepMind如何让AI训练变成一场400倍节省带宽的魔术

谷歌DeepMind如何让AI训练变成一场400倍节省带宽的魔术

谷歌DeepMind推出Streaming DiLoCo技术,通过流式同步、重叠通信和4位量化压缩三项创新,将大规模AI模型训练的带宽需求降低400倍。该方法在保持模型质量几乎不变的前提下,让普通研究机构也能负担得起超大规模AI训练,有望推动AI技术民主化发展。

AI评测基准测试的冗余危机:上海AI实验室揭示多模态大模型评估中的重复性问题

AI评测基准测试的冗余危机:上海AI实验室揭示多模态大模型评估中的重复性问题

上海AI实验室团队通过分析100多个多模态大语言模型在20多个基准上的表现,系统揭示了AI评测领域的三大冗余问题:基准内部维度重复、测试实例数量冗余、跨基准领域重叠。研究发现至少50%的测试题目是多余的,且模型能力越弱冗余度越高,为构建更高效的AI评测体系提供了科学依据和设计原则。

北京交通大学团队推出首个多图像定位AI,让机器像人一样"举一反三"找目标

北京交通大学团队推出首个多图像定位AI,让机器像人一样"举一反三"找目标

北京交通大学等机构联合开发出首个多图像视觉定位AI模型Migician,能像人类一样在多张图片中精确定位目标物体。该模型平均准确率达63.82%,比同类AI高出25个百分点,在自动驾驶、安防监控、医疗影像等领域具有广泛应用前景。研究团队构建了63万样本数据库和全面测试平台,并将所有资源开源,为多模态AI发展开辟新方向。

强化学习遇上变形金刚:田纳西理工大学发现AI自学的秘密

强化学习遇上变形金刚:田纳西理工大学发现AI自学的秘密

田纳西理工大学研究团队通过结合强化学习和变形金刚架构,成功开发出具备"元学习"能力的AI系统。该系统能在未见过的环境中快速适应并持续改进,展现了900%的性能提升。研究证实AI可进行技能组合、适应环境变化,且对训练数据质量具有显著鲁棒性,为通用人工智能发展指明新方向。

这款会"进化"的手机助手,让智能手机变得前所未有地聪明——伊利诺伊大学联合阿里巴巴推出Mobile-Agent-E

这款会"进化"的手机助手,让智能手机变得前所未有地聪明——伊利诺伊大学联合阿里巴巴推出Mobile-Agent-E

伊利诺伊大学和阿里巴巴联合推出Mobile-Agent-E,这是一款革命性的自我进化手机智能助手。该系统采用分层多智能体架构,能够处理复杂的跨应用任务,更重要的是具备从经验中学习的能力。在新开发的Mobile-Eval-E基准测试中,性能比现有最佳方法提升22.1%。

视频也能学会"思考"?北京交大和字节跳动揭秘AI如何仅凭观看视频就掌握复杂技能

视频也能学会"思考"?北京交大和字节跳动揭秘AI如何仅凭观看视频就掌握复杂技能

这项由北京交通大学和字节跳动联合完成的研究首次证明了AI可以仅通过观看视频就学会复杂技能。他们开发的VideoWorld系统通过观察围棋对局和机器人操作视频,不仅掌握了游戏规则,还达到了围棋5段专业水平,在机器人任务中的成功率也达到70-90%。这种突破性的学习方式有望革新AI教育和技能培训领域。

数字孪生技术为网络安全防御带来预测优势

数字孪生技术为网络安全防御带来预测优势

数字孪生技术正在改变网络安全防御模式,从被动响应转向主动预测。这种实时学习演进的虚拟副本让安全团队能够在威胁发生前预见攻击。组织可以在数字孪生环境中预演明日的攻击,将防御从事后反应转变为事前排演。通过动态更新的IT生态系统副本,团队可在真实条件下压力测试防御体系,模拟零日漏洞攻击并制定应对策略,从根本上重塑网络安全实践方式。

三个替代内核项目证明开发者并非只能依赖Linux

三个替代内核项目证明开发者并非只能依赖Linux

Linux内核开发面临动荡时期,Rust语言引入引发摩擦,多名核心开发者相继离职。文章介绍了三个有趣的替代方案:Managarm是基于微内核的操作系统,支持运行Linux软件;Asterinas采用Rust语言开发,使用新型framekernel架构实现内核隔离;Xous同样基于Rust和微内核设计,已有实际硬件产品Precursor发布。这些项目证明了除Linux之外,还有许多令人兴奋的操作系统研发工作正在进行。

SK海力士完成HBM4开发,为下一代GPU量产做准备

SK海力士完成HBM4开发,为下一代GPU量产做准备

韩国存储巨头SK海力士宣布完成HBM4开发并准备大规模量产,消息推动其股价上涨7%。随着AMD和英伟达的下一代数据中心GPU将采用HBM4技术,高带宽内存已成为AI加速器的核心组件。SK海力士通过将I/O端子数量增至2048个,有效实现了带宽翻倍,能效提升超过40%,运行速度达到10Gb/s。美光和三星也在积极推进HBM4产品开发。

Proxmox推出数据中心管理器测试版,成为VMware有力替代方案

Proxmox推出数据中心管理器测试版,成为VMware有力替代方案

开源虚拟化套件Proxmox推出数据中心管理工具测试版,可控制多个硬件集群,成为VMware替代方案的有力竞争者。该公司的虚拟环境产品已在160万台主机上运行。新的数据中心管理器提供集中化节点和集群管理视图,支持虚拟机迁移等基本管理功能。随着VMware在Broadcom收购后不再重视小客户需求,Proxmox凭借开源优势和价格竞争力日益受到关注。

可重构计算:破解数据中心复杂性难题

可重构计算:破解数据中心复杂性难题

AI和高性能计算正重塑各行各业,但数据中心为适应多样化工作负载而添加各种专用加速器,反而导致运营效率下降。专用芯片与CPU、GPU等系统组合产生了前所未有的复杂性,功耗飙升至不可持续水平。随着AI模型规模增长和工作负载边界模糊,传统静态硬件分配已不适用。可重构计算提供了新方案:单一平台可动态调整架构以匹配不同需求,消除芯片间通信瓶颈,降低功耗,简化运营。

英伟达展示Rubin CPX推理性能预览

英伟达展示Rubin CPX推理性能预览

英伟达发布新款Rubin CPX GPU,专为大规模上下文处理而设计,可支持百万级token的软件编程和生成视频。该产品将搭载于Vera Rubin NVL 144 CPX平台,承诺高能效和卓越推理性能,每投资1亿美元可获得50亿美元token收入。同时,英伟达展示了Blackwell Ultra GB300系统的基准测试结果,DeepSeek-R1推理性能较前代提升1.4倍。