人工智能 关键字列表
西湖大学团队破解大语言模型"过度自信"难题:让AI推理更加灵活多样

西湖大学团队破解大语言模型"过度自信"难题:让AI推理更加灵活多样

西湖大学团队发现大语言模型在强化学习训练中存在"过度自信"问题,虽然提升了单次答题准确率,却损失了探索多种解题思路的能力。他们提出SimKO方法,通过巧妙的概率重分配机制,让AI在保持高准确率的同时重新获得思维多样性,在多个数学和逻辑推理任务上都取得显著改进。

教机器像侦探一样思考:LMU Munich团队让AI解数学题时也能"明察秋毫"

教机器像侦探一样思考:LMU Munich团队让AI解数学题时也能"明察秋毫"

慕尼黑大学等机构联合开发的GroundedPRM框架,通过结合蒙特卡洛树搜索、外部工具验证和混合奖励机制,让AI在数学推理时能够像侦探一样精确评估每个步骤。该系统仅用4万训练样本就在ProcessBench测试中实现26%性能提升,并在多个数学基准测试中超越了使用人工标注数据的模型,为AI推理评估提供了新的发展方向。

苹果研究院颠覆性技术:让AI大模型"一边思考一边说话",推理速度狂飙5倍

苹果研究院颠覆性技术:让AI大模型"一边思考一边说话",推理速度狂飙5倍

苹果研究院发布Mirror-SD技术,通过让GPU和NPU协同工作实现AI推理并行化,将大模型推理速度提升2.8-5.8倍。该技术让草稿生成与目标验证同时进行,充分利用异构芯片优势,在多项任务中展现显著性能提升,为AI实时交互应用带来重大突破。

新加坡国立大学:AI智能体的探索能力研究揭示学术创新的新路径

新加坡国立大学:AI智能体的探索能力研究揭示学术创新的新路径

新加坡国立大学研究团队开发了FML-bench评估平台,首次系统性评估AI智能体在机器学习研究中的科学能力。通过对比三种不同探索策略的AI研究助手,研究发现采用广度探索的智能体比深度专精的表现更优秀。该研究建立了包含八个基础机器学习任务的测试体系和五维评估框架,为未来AI研究助手的设计提供了重要指导,表明多样性探索在自动化科学研究中的关键作用。

谷歌云推出"PanyaThAI"计划加速泰国AI应用

谷歌云推出"PanyaThAI"计划加速泰国AI应用

谷歌云发布PanyaThAI数字化转型计划,旨在帮助泰国企业部署企业级AI智能体应用。该计划首批支持15家机构,包括朱拉隆功大学、泰国证券交易所等。研究显示AI到2030年可为泰国经济贡献7300亿泰铢。计划提供全栈AI基础设施、咨询服务和员工培训,合作伙伴将培训300名本地专家。已有企业展示成果,如SE-Education通过AI语义搜索将转化率从12%提升至27%。

阿里巴巴推出可换电池设计的Quark AI智能眼镜

阿里巴巴推出可换电池设计的Quark AI智能眼镜

中国科技巨头阿里巴巴推出Quark AI智能眼镜,包括旗舰版S1和生活版G1两款型号,起售价分别为3799元和1899元。产品最大亮点是采用可更换双电池系统,续航可达24小时。眼镜搭载阿里通义千问AI模型,支持语音和触控操作,集成支付宝、淘宝等应用,可提供实时翻译、价格识别、导航和会议转录等功能。国际版将于明年发布。

罗切斯特理工学院推出SPHINX:让AI像人类一样"看懂"复杂视觉推理问题

罗切斯特理工学院推出SPHINX:让AI像人类一样"看懂"复杂视觉推理问题

罗切斯特理工学院团队开发SPHINX系统,专门测试AI视觉推理能力。该系统可无限生成25类视觉推理题目,测试发现最强的GPT-5准确率仅51.1%,远低于人类75.4%。研究显示AI主要困难在视觉信息提取而非逻辑推理,通过强化学习训练可显著改善表现并迁移到其他任务。

威廉玛丽学院:让AI模型成为自己的"敌人",竟然能让它更聪明?

威廉玛丽学院:让AI模型成为自己的"敌人",竟然能让它更聪明?

威廉玛丽学院研究团队提出UniGame框架,通过让AI模型内部组件互相"对抗"训练,解决统一多模态模型在理解和生成任务间的一致性问题。该方法让生成模块制造挑战性场景来考验理解模块,实现自我改进。实验显示一致性提升4.6%,理解能力提高3.6%,鲁棒性大幅增强,且仅需增加不到1%参数,具有广泛适用性。

华中科大团队让AI图像生成快40%!不需要真实图片,用"虚拟路径"训练出超高质量模型

华中科大团队让AI图像生成快40%!不需要真实图片,用"虚拟路径"训练出超高质量模型

华中科技大学团队提出无图像训练的轨迹反向一致性模型TBCM,通过让AI直接学习图像生成轨迹而非静态样本,实现了比传统方法节省64%内存、缩短40%训练时间的突破。该方法在单步生成中达到6.52 FID和28.08 CLIP分数,超越现有技术。研究解决了训练与推理不一致的核心问题,为AI图像生成的实用化和普及化提供了新思路。

伯克利研究团队揭示AI安全技术的根本困境:为什么完美的人工智能对齐永远无法实现?

伯克利研究团队揭示AI安全技术的根本困境:为什么完美的人工智能对齐永远无法实现?

伯克利大学研究团队通过数学分析证明了AI安全领域存在一个根本性的"对齐三难困境":AI系统无法同时实现代表所有人群价值观、保持计算可行性和确保系统安全性。研究揭示了当前主流AI训练方法RLHF的内在局限,解释了为什么现有AI系统会出现偏见放大等问题,并提出了模块化架构等可能的解决方向。

上海AI实验室首创AI助手:既能重建3D世界又能空间推理,像拥有人类双眼视觉系统

上海AI实验室首创AI助手:既能重建3D世界又能空间推理,像拥有人类双眼视觉系统

上海AI实验室联合多所知名院校开发出革命性AI系统G?VLM,首次实现3D重建与空间推理统一。该系统模仿人类双视觉通路设计,拥有几何感知和语义感知双专家,不仅能从2D图片重建3D场景,还能进行复杂空间对话推理。在空间推理测试中超越GPT-4o达18.5分,为机器人导航、AR应用等领域带来突破性进展。

戴尔Q3季度AI服务器收入破纪录,存储业务表现不佳

戴尔Q3季度AI服务器收入破纪录,存储业务表现不佳

戴尔第三季度营收270亿美元,同比增长11%,创历史新高,主要受AI服务器需求爆发式增长推动。AI服务器订单达123亿美元,全年订单总额300亿美元。基础设施解决方案集团营收141亿美元,增长24%,其中服务器和网络业务表现强劲。存储业务营收39.8亿美元,同比下降1%,但全闪存阵列产品实现双位数增长。公司预计第四季度营收315亿美元,全年AI服务器出货量约250亿美元。

Procure AI获1300万美元融资,用智能体自动化采购流程

Procure AI获1300万美元融资,用智能体自动化采购流程

Procure AI完成1300万美元种子轮融资,由Headline领投。该公司开发AI原生采购平台,通过50多个AI代理实现采购流程全自动化,涵盖供应商寻源、合同管理、采购和发票处理等环节。平台可与现有系统集成,无需替换原有软件。据称能减少40%的采购时间,节省3.7%-5.2%的成本。目前已服务德国能源供应商EnBW等客户,平均为客户节省235万欧元。

GigaOm评选Vespa.ai为顶级向量数据库

GigaOm评选Vespa.ai为顶级向量数据库

研究机构GigaOm在其雷达报告中评估了17个向量数据库,将Vespa.ai评为最佳产品。向量数据库存储和访问向量嵌入,这是数字文本、图像、声音和视频的数学表示,用于AI大语言模型的语义搜索。评估包括Activeloop、AWS、谷歌等17家供应商,其中14家位于创新区域,9家属于平台类型。领导者包括Vespa.ai、IBM、Zilliz等,主要分为专用向量数据库初创公司和传统数据库供应商两类。

梅赛德斯-AMG Petronas F1车队运用增强现实技术提升测试效率

梅赛德斯-AMG Petronas F1车队运用增强现实技术提升测试效率

梅赛德斯-AMG Petronas一级方程式车队采用TeamViewer的增强现实技术来改进测试和开发流程。该技术通过平板设备提供实时AR指导,将装配指令叠加到真实空间中,替代了传统的纸质指南。工程师可以看到清晰的分步装配序列,确保测试设备组装准确无误。这一创新显著缩短了测试准备时间,减少了错误率,帮助车队更高效地开发和测试赛车部件,最终在赛道上获得竞争优势。

通向超级智能的失控之路可能让人类劳动彻底淘汰

通向超级智能的失控之路可能让人类劳动彻底淘汰

在里斯本网络峰会上,麻省理工学院物理学家、生命未来研究所主席马克斯·泰格马克发出警告:人类可能正在走向自我淘汰。他指出超级智能的威胁比以往任何时候都更加迫近。超级智能是指在几乎所有领域都显著超越人类智能水平的AI系统。目前美国对AI行业几乎没有监管,而超级智能可能导致人类完全失业。生命未来研究所的禁止创建超级智能请愿书已获得超过12.7万个签名。

五位自动驾驶产业链大咖畅谈:未来运输的模式、通路与破壁

五位自动驾驶产业链大咖畅谈:未来运输的模式、通路与破壁

运输产业正在经历着怎样的技术变革、模式进化,以及商业化落地难题。

世界模拟新引擎:阿里巴巴达摩院发布Inferix,让AI像导演一样制作超长视频

世界模拟新引擎:阿里巴巴达摩院发布Inferix,让AI像导演一样制作超长视频

阿里巴巴达摩院联合浙江大学、香港科技大学发布Inferix,这是专为世界模拟打造的下一代推理引擎。它采用块扩散技术,像搭积木般分段生成视频,既保证高质量又支持任意长度,克服了传统方法的局限。配套LV-Bench评测基准包含1000个长视频样本,建立了分钟级视频生成的评估标准,为游戏、教育、娱乐等领域的内容创作带来革命性突破。

Luma AI推出终端速度匹配:一步生成高质量图像的革命性突破

Luma AI推出终端速度匹配:一步生成高质量图像的革命性突破

Luma AI推出的终端速度匹配(TVM)是一种革命性的图像生成技术,能够在单次计算中生成高质量图像,突破了传统方法需要数十步采样的限制。该技术通过关注生成路径的"终点"而非"起点",实现了从噪声到图像的直接跳跃,在保证数学理论基础的同时大幅提升了生成效率,为实时AI应用开辟了新路径。

NVIDIA推出轻量级文档解析神器:885M参数的OCR模型如何做到既快又准?

NVIDIA推出轻量级文档解析神器:885M参数的OCR模型如何做到既快又准?

NVIDIA发布Nemotron-Parse 1.1轻量级文档解析模型,仅用8.85亿参数就实现了端到端的OCR、格式化文本提取、表格解析和语义分类功能。该模型采用创新的无位置编码设计和多令牌推理技术,在多个基准测试中表现出色,处理速度达到每秒4-5页。研究团队还开源了模型权重和训练管道,为文档数字化和AI应用提供了高效实用的解决方案。