2009年,比尔·戴利加入英伟达研究实验室时,该实验室仅有约12名员工,专注于计算机图形学中的光线追踪技术。如今这个实验室已发展至400多人,帮助英伟达从90年代的游戏GPU初创公司转型为价值4万亿美元的AI巨头。目前实验室重点开发机器人和AI技术,部分研究成果已应用于产品中。英伟达在周一发布了面向机器人开发者的新AI模型、库和基础设施,展现了从物理AI到机器人领域的技术进展。
英伟达在SIGGRAPH大会上发布了全新的AI世界模型、库和机器人开发基础设施。其中最引人注目的是Cosmos Reason,这是一个70亿参数的"推理"视觉语言模型,专门用于物理AI应用和机器人。新发布的还包括Cosmos Transfer-2模型,能够从3D仿真场景加速合成数据生成,以及速度优化版本。公司还推出了神经重建库、RTX Pro Blackwell服务器和DGX Cloud云平台,旨在为机器人开发提供完整的解决方案。
谷歌DeepMind发布新一代世界模型Genie 3,相比前代产品实现多项关键提升。新模型支持720p分辨率输出,可持续运行数分钟而不产生伪影,并首次支持实时交互和文本提示功能,用户可通过文本指令动态改变模拟世界状态。DeepMind将其定位为AI智能体训练工具,可用于自动驾驶等场景的"假如"情况训练,提高模型可靠性。
谷歌DeepMind发布了Genie 3基础世界模型,该实验室称其为通向通用人工智能的重要里程碑。Genie 3是首个实时交互的通用世界模型,能够生成照片级逼真和想象世界。该模型可通过文本提示生成数分钟的多样化3D环境,分辨率达720p,帧率24fps。最重要的是,Genie 3的模拟在时间上保持物理一致性,因为模型能够记住先前生成的内容。研究人员认为世界模型是实现AGI的关键,特别是对于具身智能体的训练。
谷歌DeepMind推出Genie 3"世界模型",仅需提示词或图像即可创建交互式世界。该模型支持720p分辨率24帧每秒的实时渲染,相比前代产品显著提升了视觉保真度和记忆能力,可保持数分钟的视觉一致性。用户能够实时修改环境、添加对象、改变天气或插入新角色。DeepMind将其视为AI研究工具,用于训练embodied agents并生成合成训练数据。尽管仍存在局限性如无法模拟真实地点、易产生AI幻觉等,但该技术为游戏开发和AGI研究提供了新可能性。
谷歌DeepMind部门整合人工智能团队,专注于开发能模拟物理世界的先进AI大模型。新团队由前OpenAI项目负责人领衔,将提升AI对现实世界的认知和模拟能力。Genie 2模型能从单一图像构建交互3D环境,支持长视频内容生成等。科技巨头争夺世界模型开发,预示AI技术在游戏、影视、机器人等领域的广泛应用。