实时交互 关键字列表
Mira Murati的AI公司Thinking Machines正在研究什么

Mira Murati的AI公司Thinking Machines正在研究什么

前OpenAI首席技术官Mira Murati创立的AI公司Thinking Machines,近日宣布正在开发一种名为"交互模型"的新技术。该技术旨在让AI能够实时处理音频、视频和文本,像人与人自然协作一样与用户互动,打破现有模型单线程处理的局限。目前,该公司计划在未来几个月内开放有限研究预览,并于今年晚些时候进行更大范围发布。

Gemini 3.1 Flash Live登场:AI语音对话达到近似真人水平

Gemini 3.1 Flash Live登场:AI语音对话达到近似真人水平

谷歌发布新AI音频模型Gemini 3.1 Flash Live,专为实时对话设计。该模型语音生成速度更快,语调更自然,在多项基准测试中表现出色。为防止AI语音被冒充为真人声音,谷歌为输出内容添加了SynthID水印。目前已与家得宝、威瑞森等公司合作测试,并开始在Gemini Live等产品中推出。

Google AI搜索实时助手支持数十种新语言

Google AI搜索实时助手支持数十种新语言

谷歌宣布扩展Search Live功能,现已覆盖200多个国家和地区,支持数十种语言。该AI搜索助手基于新的Gemini 3.1 Flash Live模型,用户可通过语音和摄像头搜索信息,AI将提供音频回应和相关链接。新模型具备多语言能力,响应速度更快,对话更自然。用户可通过Google应用或Google Lens访问。此外,谷歌翻译的实时翻译功能也扩展至iOS平台。

谷歌推出Genie 3世界模型,可实时动态修改模拟环境状态

谷歌推出Genie 3世界模型,可实时动态修改模拟环境状态

谷歌DeepMind发布新一代世界模型Genie 3,相比前代产品实现多项关键提升。新模型支持720p分辨率输出,可持续运行数分钟而不产生伪影,并首次支持实时交互和文本提示功能,用户可通过文本指令动态改变模拟世界状态。DeepMind将其定位为AI智能体训练工具,可用于自动驾驶等场景的"假如"情况训练,提高模型可靠性。

Google 推出 Gemini 实时 AI 视频功能

Google 推出 Gemini 实时 AI 视频功能

Google 正式向用户推出 Gemini Live 的新 AI 功能,让用户能够通过手机屏幕或摄像头实时与 AI 进行交互。这项源自 "Project Astra" 的技术,可以实时解读视频内容并回答相关问题。目前该功能已向 Google One AI Premium 计划的 Gemini Advanced 订阅用户开放,展现了 Google 在 AI 助手领域的领先地位。

令人惊叹又不安的超逼真 AI 语音演示

令人惊叹又不安的超逼真 AI 语音演示

一段令人惊叹又让人不安的AI语音演示在网上引发热议。2013年,斯派克·琼斯的电影《她》描绘了一个人们与AI语音助手建立情感联系的未来。近12年后,AI初创公司Sesame发布的新对话语音模型使这一虚构的设想更接近现实,许多用户对此感到既着迷又不安。