谷歌DeepMind宣布将Street View街景数据接入Genie世界模型,用户可基于真实地点生成可交互的沉浸式环境,并支持调整天气、季节等参数。该功能已于谷歌I/O开发者大会正式发布,面向美国Ultra订阅用户开放,后续将扩展至全球用户。目前Genie已助力Waymo自动驾驶模拟器训练极端场景,但模型尚不具备物理感知能力,画面质量仍处于游戏级别,研究团队预计6至12个月内将显著提升。
谷歌在I/O开发者大会上发布了全新多模态AI产品Gemini Omni。与现有文字转视频工具不同,Omni支持文本、图像、视频等多种输入形式,可生成高度逼真的视频内容。该产品基于Gemini架构,具备高级物理模拟与视频编辑能力,支持替换视频中的单个元素。所有输出内容将自动附加SynthID水印。Omni目前已在Gemini应用、Google Flow及YouTube Shorts上线,后续将向开发者和企业开放API接入,并推出更强大的Omni Pro版本。
AI生成视频正迅速从新奇玩物演变为创作工具,Runway作为行业前沿公司,已融资近8.6亿美元,估值达53亿美元。其模型正面向谷歌、OpenAI等顶级实验室发起挑战。Runway现已将目光投向通用世界模型,布局游戏、机器人乃至通用智能领域。CEO Cristóbal Valenzuela认为,AI视频仅是开端,实时视频生成将开启远超内容创作的全新应用场景。
人工智能先驱Yann LeCun联合创立的新创公司AMI Labs宣布完成10.3亿美元种子轮融资,公司估值达35亿美元。投资方包括英伟达、三星电子等知名企业。AMI Labs计划开发能够分析摄像头和传感器数据的世界模型,应用于硬件设计、医疗健康和机器人等领域。该公司将避免使用类似大语言模型的生成式架构,而是基于新型架构构建神经网络,预计将快速发布首批模型并开源部分技术。
世界模型初创公司Runway AI宣布完成3.15亿美元融资,由英伟达和AMD风投参投,General Atlantic领投。公司估值达53亿美元。Runway专注开发世界模型算法,可基于用户提示生成三维虚拟环境,客户包括Shutterstock和Robinhood等知名企业。公司最新推出的GWM-1模型支持机器人测试和神经网络训练。该轮融资将用于模型开发和团队扩张,以应对来自World Labs和谷歌等竞争对手的挑战。
谷歌推出Project Genie,这是Genie 3 AI世界模型的升级版本,能够根据文本提示或图片创建可交互的虚拟环境。该系统采用"世界草图"技术,先生成静态图像再构建动态世界,支持720p分辨率24帧渲染。用户可通过WASD控制角色实时探索60秒的AI生成世界。目前仅向AI Ultra订阅用户开放,月费250美元,谷歌计划逐步扩大访问范围。
谷歌DeepMind推出Project Genie项目,基于Genie 3模型让用户创建交互式虚拟环境。该服务需要每月250美元的AI Ultra订阅计划,仅限美国18岁以上用户使用。提供世界素描、探索和重混三种交互模式,用户可描述角色、定义视角并探索生成的世界。虽然不是传统游戏引擎,但能模拟物理交互,生成内容限制为60秒、720p分辨率、24帧率。
谷歌今日面向美国地区Google AI Ultra订阅用户推出Project Genie实验原型。该项目基于Genie 3世界模型,能够生成多样化交互环境。用户可通过文本和图像提示创建动态世界,实时探索生成的路径,并重新编辑现有世界。系统整合了Nano Banana Pro的"世界素描"功能,支持精确控制视角和交互方式。作为早期研究模型,目前存在物理效果不够真实、角色控制延迟等限制,生成时长限制在60秒内。
虽然大语言模型是当前AI的技术基础,但世界模型可能更具影响力。世界模型将物理世界的物理定律、物体检测和运动转化为AI可理解的数字蓝图,专注于理解自然世界而非生成文字。多位AI先驱表示正转向构建世界模型,包括Meta的杨立昆和"AI教母"李飞飞。英伟达在CES上展示了其世界模型Cosmos在自动驾驶中的应用。这些模型是开发物理AI的重要基石,将实现AI创建真实视频、指导手术机器人和增强自动驾驶能力。
AI先驱杨·勒昆离开Meta后成立的新公司AMI Labs正式公布其发展计划。该初创公司专注于开发"世界模型"技术,旨在构建理解真实世界的智能系统。公司由前Nabla联合创始人亚历克斯·勒布伦担任CEO,勒昆任执行主席。据报道,AMI Labs正以35亿美元估值融资,总部设在巴黎,在蒙特利尔、纽约和新加坡设有办事处。公司计划将技术授权给工业合作伙伴,应用于医疗、机器人、工业控制等高风险领域。
机器人公司1X发布了名为"1X世界模型"的新AI模型,该模型能够理解真实世界的物理规律,帮助Neo人形机器人通过视频和提示词学习新技能。这一基于物理的模型让机器人能够从互联网规模的视频中学习,并将知识直接应用到物理世界中。1X正准备向家庭用户发售Neo人形机器人,该公司十月份开放预订,计划今年发货。
TechCrunch的Equity团队推出年度预测节目,主持人与嘉宾共同回顾2025年科技发展,从超大规模AI融资到"物理AI"兴起,并对2026年做出预测。节目涵盖AI智能体未来发展、好莱坞对AI内容的反击、风投流动性危机等话题。还探讨了世界模型在AI中的重要性、AI初创企业融资模式变化、监管政策影响,以及OpenAI和Anthropic的IPO前景等热点问题。
近年来,AI学会了写作、生成图像、创建视频甚至编写代码。随着这些能力成为主流,研究重点转向更深层问题:机器能否真正理解世界运作方式?世界模型应运而生,从1950年代概念到2024年OpenAI的Sora、2025年英伟达Cosmos等突破性应用。与语言模型基于文本预测不同,世界模型专注预测环境变化,通过学习因果关系实现推理规划。在机器人、自动驾驶等物理AI领域前景广阔,但面临计算资源需求高、数据收集困难等挑战。
AI视频生成公司Runway推出首个世界模型GWM-1,通过逐帧预测创建具备物理理解能力的仿真环境。该公司还发布了三个专门版本:GWM-Worlds用于交互式场景创建,GWM-Robotics利用合成数据训练机器人,GWM-Avatars模拟真实人类行为。同时,Runway更新了Gen 4.5模型,新增原生音频和长视频生成功能,支持一分钟视频制作及多镜头叙事。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
全球顶级人工智能公司正加大对"世界模型"的投资,寻求实现机器"超级智能"的新途径。谷歌DeepMind、Meta和英伟达等公司正开发能通过视频和机器人数据学习导航物理世界的系统,而非仅依赖语言。这一转变源于大语言模型发展遭遇瓶颈,各公司LLM性能提升速度放缓。英伟达表示世界模型市场潜力巨大,可达100万亿美元规模。
2009年,比尔·戴利加入英伟达研究实验室时,该实验室仅有约12名员工,专注于计算机图形学中的光线追踪技术。如今这个实验室已发展至400多人,帮助英伟达从90年代的游戏GPU初创公司转型为价值4万亿美元的AI巨头。目前实验室重点开发机器人和AI技术,部分研究成果已应用于产品中。英伟达在周一发布了面向机器人开发者的新AI模型、库和基础设施,展现了从物理AI到机器人领域的技术进展。
英伟达在SIGGRAPH大会上发布了全新的AI世界模型、库和机器人开发基础设施。其中最引人注目的是Cosmos Reason,这是一个70亿参数的"推理"视觉语言模型,专门用于物理AI应用和机器人。新发布的还包括Cosmos Transfer-2模型,能够从3D仿真场景加速合成数据生成,以及速度优化版本。公司还推出了神经重建库、RTX Pro Blackwell服务器和DGX Cloud云平台,旨在为机器人开发提供完整的解决方案。
谷歌DeepMind发布新一代世界模型Genie 3,相比前代产品实现多项关键提升。新模型支持720p分辨率输出,可持续运行数分钟而不产生伪影,并首次支持实时交互和文本提示功能,用户可通过文本指令动态改变模拟世界状态。DeepMind将其定位为AI智能体训练工具,可用于自动驾驶等场景的"假如"情况训练,提高模型可靠性。
谷歌DeepMind发布了Genie 3基础世界模型,该实验室称其为通向通用人工智能的重要里程碑。Genie 3是首个实时交互的通用世界模型,能够生成照片级逼真和想象世界。该模型可通过文本提示生成数分钟的多样化3D环境,分辨率达720p,帧率24fps。最重要的是,Genie 3的模拟在时间上保持物理一致性,因为模型能够记住先前生成的内容。研究人员认为世界模型是实现AGI的关键,特别是对于具身智能体的训练。