斯坦福大学研究团队开发出名为"投机采样"的AI训练新方法,通过引入小型草稿模型提供候选方案,让主模型无需从零开始计算,训练速度提升2-640倍,同时将能源消耗降低80%以上。这项技术大幅降低了AI模型训练成本,让普通人和小团队也能负担得起高质量AI模型开发,有望推动AI技术民主化普及。
这项研究开发了首个轻量级物理推理评估框架,测试四种主流视觉语言模型在抛射运动、碰撞动力学、力学和流体动力学四个领域的表现。结果显示中等规模的Qwen2.5-VL-7B意外击败最大模型获得最高分0.815,揭示了当前AI模型更擅长公式应用而非真正物理理解的局限性。研究为科学推理评估提供了可复制的工具,并指出概念性错误是主要问题,为未来AI发展指明方向。
Meta AI团队开发的AggLM技术突破了传统AI多数投票的局限,通过强化学习训练模型学会智能聚合多个候选答案。在数学竞赛测试中,该技术将正确率从35%提升至50%,相比传统方法提升45%。AggLM不仅能选择正确答案,还能创造性地组合不同答案中的有用信息,展现了AI向人类专家级推理能力的重要进步。
中科院自动化所团队开发出Reflection-V视觉推理模型,首次让AI学会在推理过程中主动回顾检查图像信息。该模型通过创新的多智能体训练数据构建和视觉注意力奖励机制,解决了传统AI视觉推理中"看一眼就算数"的问题,在数学推理、多学科知识问答等任务上显著超越现有模型,甚至在某些测试中超过参数量大5倍的模型。
心理健康挑战已达史无前例的水平,2024年美国近6000万成年人患有心理疾病,但仅半数接受治疗。专家正探索智能AI代理系统作为解决方案,这些自主代理具备独立决策、持续学习和主动干预能力。未来应用包括自主治疗代理、预测性心理健康生态系统和主动危机预防。该技术可提供24/7支持、实时监测心理状态、预测危机并部署个性化干预措施,有望创建更具响应性和预防性的心理健康生态系统。
阿里通义实验室与浙江大学联合发布UI-S1系统,通过创新的半在线强化学习方法,让AI掌握了复杂的手机操作能力。该系统在多个测试平台上表现优异,相比基础模型在AndroidWorld上提升12%,在AITW上提升23.8%,为实现真正的智能手机助手迈出重要一步。
MIT研究团队发现,AI图像生成模型的"局部思维"并非来自网络结构限制,而是源于训练数据中像素间的统计关联。通过巧妙实验证明,即使改变数据中的微妙模式,AI也会相应调整注意力策略。这一发现为开发更可解释、高效的AI系统提供了新思路,并揭示了数据质量在AI发展中被低估的重要性。
Spotify宣布已从其目录中删除7500万首"垃圾"音乐,作为打击日益泛滥的欺诈性音频内容和"AI垃圾"的努力。公司发布新政策禁止冒充、垃圾提交和欺诈版税生成。目前流媒体服务每日收到约15万首新曲目,其中28%为纯AI生成。主要唱片公司担心低质量内容稀释人类艺术家的版税池,而AI工具进一步加速了这一趋势。
Meta公司推出名为"Vibes"的全新信息流功能,专门展示由创作者使用AI技术制作的视频内容。该功能将人工智能生成的视频内容进行整合和分类,为用户提供更加个性化的AI视频浏览体验,标志着Meta在AI内容分发领域的又一重要布局。
YouTube正在测试一项全新的AI实验功能,为用户的音乐体验添加AI虚拟主播。这项创新技术将人工智能与音乐内容相结合,让AI主播能够为用户介绍和解说音乐内容,提供更加个性化和互动性的音乐收听体验。该功能目前处于实验阶段,展现了YouTube在音乐服务领域的技术创新方向。
北京大学团队发现AI训练中的"个性化"秘密:不同词汇在推理过程中承担不同角色,传统方法一视同仁效率低下。研究团队开发HAPO方法,根据词汇重要性动态调整训练策略,在数学推理任务上准确率提升16.6%,为AI训练的精细化控制开辟新方向。
据报道,Meta正在研发机器人技术,但与苹果、谷歌和特斯拉不同,Meta的重点不在硬件竞争。虽然公司正在开发"Metabot",但真正目标是创建可供其他公司授权使用的软件平台,类似谷歌的安卓系统。Meta首席技术官表示"软件是瓶颈",希望通过机器人团队和超级智能实验室的合作开发解决方案,包括能够帮助机器人进行软件模拟的"世界模型"。
阿里巴巴达摩院联合南洋理工大学的研究团队发现,当前AI模型在几何推理中频繁出错的根本原因是视觉感知能力不足。他们提出了分阶段训练框架,先强化AI的基础视觉感知能力,再进行复杂推理训练。实验显示,这种方法使3B参数模型在几何推理任务上准确率提升9.7%,接近GPT-4o的表现水平,为AI视觉理解能力提升提供了新思路。
澳大利亚研究团队开发出首个专门识别古希腊陶器的AI系统VaseVL,通过创新的"诊断式强化学习"方法,在材质识别、工艺判断等任务上达到专家级水平。该系统基于超过3万张陶器图片训练,准确率最高达99.95%,为文化遗产保护和考古研究提供了强大的技术支持,开启了AI辅助文物分析的新时代。
苏州大学团队提出SCAN框架,通过分析AI模型在数学推理标注中的噪声分布规律,设计出高效的数据合成和鲁棒训练方法。该方法仅需传统方法6%的计算成本,就能让小模型达到甚至超越大模型的数学错误检测性能,为过程奖励学习领域带来重大突破。
韩国政府投入5300亿韩元支持五家本土公司开发大型基础AI模型,包括LG AI研究院、SK电信、Naver Cloud、NC AI和Upstage。这些公司分别推出了Exaone 4.0、A.X、HyperCLOVA X和Solar Pro 2等针对韩语和本土文化优化的模型。韩国希望通过减少对外国AI技术的依赖,加强国家安全并在AI时代保持数据控制权,与全球AI巨头展开竞争。
埃森哲在2025财年业绩中表示,正大力投资员工AI技能培训。CEO朱莉·斯威特明确表示,对于无法通过AI增强工作能力且无法学习新技能的员工,公司将选择让其离职。这是公司业务重组战略的一部分,将产生8.65亿美元的一次性费用。目前埃森哲拥有7.7万名经过AI培训的专业人员,GenAI收入达27亿美元。公司整体表现良好,年收入增长7%至697亿美元。
Pure Storage在控制平台方面推出重大升级,包括AI智能控制平台、AI副驾驶功能和网络安全防护增强。新的智能控制平台可实时感知应用和工作负载,自动发现超负荷阵列并迁移工作负载。AI副驾驶支持自然语言管理,可与CrowdStrike等合作伙伴集成提供威胁检测。此外还推出恢复区域功能,提供隔离的恢复环境。这些功能将在2025-2027年间陆续上线。
人工智能基础设施提供商Nscale完成11亿美元B轮融资,创下英国和欧洲最大B轮融资纪录。此轮融资由挪威工业投资公司Aker ASA领投,诺基亚和英伟达等公司跟投。该公司计划利用资金在欧洲、北美和中东加速部署大规模AI基础设施,支持OpenAI在挪威和英国的主权AI计算能力建设项目,并扩大工程和运营团队规模。
数据科学巨头Databricks与OpenAI达成价值1亿美元的合作,在Databricks数据智能平台上推出"Agent brick"代理组件。该系统集成GPT-5等模型,可分析商业智能、自动化工作流程,并考虑法规和网络安全标准等上下文因素。企业用户可大规模运行大语言模型,在安全的生态系统中获得前沿AI能力,满足企业定制化AI应用和代理构建需求。