谷歌推出全新模型Gemini Omni,支持图像、音频、视频和文本的多模态输入,并可生成高质量视频。用户可通过自然语言对话编辑视频,保持角色一致性与场景连贯性。Omni结合物理直觉与Gemini的知识库,实现更真实的视觉效果。首款产品Gemini Omni Flash已向全球Plus、Pro和Ultra订阅用户开放,并将逐步向开发者和企业客户提供API接入。
谷歌在I/O 2026开发者大会上宣布了Gemini应用的重要更新。新版本引入更快速的Gemini 3.5 Flash模型,带来"神经表达"设计风格,提升动画与交互体验。全新Gemini Omni Flash支持多模态视频生成,可基于图像、音频、文字创作逼真视频。Gemini Spark作为"常驻"AI智能体,可在后台自动处理邮件、扫描账单等任务。Daily Brief功能则整合日历与邮件,为用户提供每日智能摘要。
微软AI研究实验室发布三款新的基础AI模型,可生成文本、语音和图像。MAI-Transcribe-1支持25种语言语音转文本,速度比Azure Fast快2.5倍;MAI-Voice-1可在一秒内生成60秒音频并支持自定义语音;MAI-Image-2为视频生成模型。这些模型由CEO穆斯塔法·苏莱曼领导的超级智能团队开发,定价相比谷歌和OpenAI更具竞争力,体现了微软在多模态AI领域的持续布局。
AI视频生成初创公司Luma发布Luma Agents,可处理文本、图像、视频和音频的端到端创意工作。该智能体基于公司的统一智能模型家族,采用单一多模态推理系统架构。Luma Agents面向广告代理、营销团队、设计工作室和企业用户,能够规划和生成多种媒体内容,并与其他AI模型协调工作。该系统可在资产、合作者和创意迭代中保持持续上下文,并通过自我评估和改进提升输出质量。
谷歌最新的开源 AI 模型 Gemma 3 并不是今天 Alphabet 子公司唯一的重要新闻。实际上,谷歌的 Gemini 2.0 Flash 以原生图像生成技术吸引了更多的关注,这是一个可供 Google AI Studio 用户和开发者通过谷歌的 Gemini API 免费使用的新实验模型。这是美国主要科技公司首次将多模态图像生成直接集成到模型中供消费者使用。与其他大多数 AI 图像生成工具不同,Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像,理论上允许更高的准确性和更多的功能,早期迹象表明这一点完全正确。