Luminary Cloud宣布完成7200万美元B轮融资,专注开发"物理AI"技术。该公司云原生平台可将仿真速度提升100倍,利用物理信息模型实时预测汽车、飞机等产品性能。公司推出针对特定行业的预训练模型,包括与本田合作的汽车设计模型和与Otto航空合作的飞机开发模型。融资由西门子风投领投,将用于扩大研发团队和市场销售。
谷歌研究团队推出VaultGemma,这是其首个采用差分隐私技术的大语言模型。该模型基于Gemma 2构建,拥有10亿参数,通过在训练阶段引入校准噪声来防止模型"记忆"敏感用户数据。研究团队建立了差分隐私缩放定律,平衡计算预算、隐私预算和数据预算。尽管添加差分隐私会影响准确性,但VaultGemma在性能上与同规模非私有模型相当。该模型现已在Hugging Face和Kaggle平台开放下载。
OpenAI发布了面向AI编程助手Codex的GPT-5新版本。新模型GPT-5-Codex采用动态"思考"机制,可根据编程任务复杂度灵活调整处理时间,从几秒到七小时不等。该模型已向ChatGPT Plus等付费用户推出,在代码重构和审查基准测试中表现优异。相比传统路由器预设计算资源的方式,GPT-5-Codex能实时调整工作时长,这有助于OpenAI在竞争激烈的AI编程工具市场中提升竞争力。
HPE第三财季营收创纪录达到91亿美元,同比增长19%。AI服务器销售大幅增长,新收购的Juniper推动网络业务增长54%。Alletra存储销售实现三位数增长。服务器业务营收49亿美元,AI系统营收达到16亿美元创历史新高。该公司连续四个季度实现营收增长,GreenLake订阅客户增至4.4万,年化营收运行率达31亿美元。
爱立信宣布在其私有5G技术中集成代理式AI,计划2025年第四季度推出。该系统将NetCloud平台与私有5G网络结合,为企业客户提供AI功能、实时特性、简化的生命周期管理等优势。升级版NetCloud助手ANA可处理复杂工作流程、执行管理决策并实时学习,预计将故障停机时间和客户支持案例减少超过20%,助力企业数字化转型。
甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。
谷歌推出全球最强差分私有大语言模型VaultGemma,这是一个10亿参数的模型,基于Gemma架构构建。该模型采用先进数学算法防止敏感数据泄露,通过在数据集中添加受控噪声实现隐私保护。VaultGemma在多项基准测试中表现卓越,性能可媲美同等参数的非私有模型,但完全不会暴露训练数据,为金融和医疗等监管行业的AI应用提供重要保障。
乔治华盛顿大学研究人员开发出"FOMC计算机模拟"项目,成功构建了美联储公开市场委员会会议的AI模型。该项目将每位委员的政策态度和投票记录输入系统,创建数字化委员档案。研究采用双轨模拟框架,结合大语言模型驱动的会议模拟与博弈论投票模型。主要发现显示,在政治压力下,委员会成员会产生分歧并破坏共识。这一技术突破为未来模拟各类群体决策会议奠定了基础。
AI聊天机器人如ChatGPT、Gemini和Grok日益融入日常生活,目前最受欢迎的用途是心理治疗。人们常与它们讨论敏感话题,误以为对话会保持私密。然而,聊天机器人不受保密规则约束。近期发生多起数据泄露事件,包括ChatGPT分享功能导致对话被搜索引擎索引,Grok多达30万次聊天记录被公开。企业中"影子AI"使用也带来风险。专家建议避免分享个人敏感信息,企业应制定相关政策。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。
ByteDance研究团队开发出革命性的Seaweed-APT技术,实现了首个真正意义上的实时高清视频生成。该技术通过创新的对抗后训练方法,将传统需要25步和数分钟的视频生成过程压缩为单步1秒完成,能生成2秒长1280×720高清视频,视觉真实感提升37.2%。尽管在结构完整性方面存在一定权衡,但这项突破为AI内容创作、社交媒体、教育和娱乐等领域开启了实时视频生成的新时代。
Google DeepMind通过Physics-IQ基准测试发现,尽管当前AI视频模型能生成视觉上极为逼真的内容,但其物理理解能力严重不足。研究使用396个真实物理实验视频测试了8个主流模型,结果显示最佳模型得分仅为29.5%。更重要的是,视觉真实度与物理理解能力之间几乎无关联,这一发现对AI发展具有重要启示意义。
中科大深圳团队开发RealCritic框架,发现AI大模型普遍存在批评能力缺陷。除o1-mini外,多数模型在自我批评时表现下降,甚至把正确答案改错。研究揭示"会做题"和"会批评"是不同技能,提出闭环评估新方法,为AI批评能力评估提供科学标准。
西班牙马德里理工大学等机构联合研究发现,大语言模型在经过推理思考后会变得更加自信,但这种自信不分对错。研究测试了七个不同模型,发现当要求AI先解释推理过程再回答选择题时,所有模型都表现出更高的信心水平,且错误答案的信心增长甚至超过正确答案。这一现象类似人类"解释即相信"的认知偏见。
这项由中国人民大学等机构合作完成的研究提出了Virgo系统,发现仅用5000个纯文本推理案例训练就能让AI在视觉推理任务上达到顶级商业系统水平。研究证实推理能力具有跨模态通用性,为更经济高效地开发多模态AI系统指明了新方向,同时也揭示了AI感知反思能力不足的局限性。
上海交通大学团队通过"推理时间扩展"技术让AI学会深度思考,在医学诊断中取得突破。研究发现AI思考时间越长诊断越准确,仅用500个样本就实现6%-11%准确率提升。AI模型展现出类似医生的临床推理能力,能进行差异诊断和证据权衡,特别在复杂罕见疾病诊断方面表现出色,为AI医学应用开辟新方向。
Meta团队开发出CLUE系统,这是一种无需人工标注数据就能判断图像安全问题的AI方法。该系统通过将主观安全规则客观化、智能筛选相关规则、分解复杂条件、消除判断偏见等创新技术,在测试中达到95.9%召回率和94.8%准确率,显著超越传统方法。这项突破为内容平台提供了高效灵活的安全检测工具,有望改变网络内容审核的现状。
上海AI实验室团队通过分析100多个多模态大语言模型在20多个基准上的表现,系统揭示了AI评测领域的三大冗余问题:基准内部维度重复、测试实例数量冗余、跨基准领域重叠。研究发现至少50%的测试题目是多余的,且模型能力越弱冗余度越高,为构建更高效的AI评测体系提供了科学依据和设计原则。
北京交通大学等机构联合开发出首个多图像视觉定位AI模型Migician,能像人类一样在多张图片中精确定位目标物体。该模型平均准确率达63.82%,比同类AI高出25个百分点,在自动驾驶、安防监控、医疗影像等领域具有广泛应用前景。研究团队构建了63万样本数据库和全面测试平台,并将所有资源开源,为多模态AI发展开辟新方向。
田纳西理工大学研究团队通过结合强化学习和变形金刚架构,成功开发出具备"元学习"能力的AI系统。该系统能在未见过的环境中快速适应并持续改进,展现了900%的性能提升。研究证实AI可进行技能组合、适应环境变化,且对训练数据质量具有显著鲁棒性,为通用人工智能发展指明新方向。