前OpenAI首席技术官Mira Murati创立的AI公司Thinking Machines,近日宣布正在开发一种名为"交互模型"的新技术。该技术旨在让AI能够实时处理音频、视频和文本,像人与人自然协作一样与用户互动,打破现有模型单线程处理的局限。目前,该公司计划在未来几个月内开放有限研究预览,并于今年晚些时候进行更大范围发布。
谷歌发布新AI音频模型Gemini 3.1 Flash Live,专为实时对话设计。该模型语音生成速度更快,语调更自然,在多项基准测试中表现出色。为防止AI语音被冒充为真人声音,谷歌为输出内容添加了SynthID水印。目前已与家得宝、威瑞森等公司合作测试,并开始在Gemini Live等产品中推出。
谷歌宣布扩展Search Live功能,现已覆盖200多个国家和地区,支持数十种语言。该AI搜索助手基于新的Gemini 3.1 Flash Live模型,用户可通过语音和摄像头搜索信息,AI将提供音频回应和相关链接。新模型具备多语言能力,响应速度更快,对话更自然。用户可通过Google应用或Google Lens访问。此外,谷歌翻译的实时翻译功能也扩展至iOS平台。
谷歌DeepMind发布新一代世界模型Genie 3,相比前代产品实现多项关键提升。新模型支持720p分辨率输出,可持续运行数分钟而不产生伪影,并首次支持实时交互和文本提示功能,用户可通过文本指令动态改变模拟世界状态。DeepMind将其定位为AI智能体训练工具,可用于自动驾驶等场景的"假如"情况训练,提高模型可靠性。
Google 正式向用户推出 Gemini Live 的新 AI 功能,让用户能够通过手机屏幕或摄像头实时与 AI 进行交互。这项源自 "Project Astra" 的技术,可以实时解读视频内容并回答相关问题。目前该功能已向 Google One AI Premium 计划的 Gemini Advanced 订阅用户开放,展现了 Google 在 AI 助手领域的领先地位。
一段令人惊叹又让人不安的AI语音演示在网上引发热议。2013年,斯派克·琼斯的电影《她》描绘了一个人们与AI语音助手建立情感联系的未来。近12年后,AI初创公司Sesame发布的新对话语音模型使这一虚构的设想更接近现实,许多用户对此感到既着迷又不安。