多模态生成文章列表第1页-至顶网频道

多模态生成关键字列表

Cosmos 3如何帮助物理AI在行动前进行思考

现实世界始终处于运动状态。为实现自主运行，包括机器人、自动驾驶汽车和智能空间在内的物理AI系统不仅需要理解它们所看到的内容及其成因，还需要预测接下来可能发生的情况。英伟达在台北GTC大会上发布的Cosmos 3世界基础模型，将视觉推理与文本、视频、图像、环境声音和动作的多模态生成整合在单一模型中，帮助开发者创建具有物理上下文的世界数据。

Gemini Omni正式发布：多模态输入生成高质量视频

谷歌推出全新模型Gemini Omni，支持图像、音频、视频和文本的多模态输入，并可生成高质量视频。用户可通过自然语言对话编辑视频，保持角色一致性与场景连贯性。Omni结合物理直觉与Gemini的知识库，实现更真实的视觉效果。首款产品Gemini Omni Flash已向全球Plus、Pro和Ultra订阅用户开放，并将逐步向开发者和企业客户提供API接入。

谷歌在I/O 2026开发者大会上宣布了Gemini应用的重要更新。新版本引入更快速的Gemini 3.5 Flash模型，带来"神经表达"设计风格，提升动画与交互体验。全新Gemini Omni Flash支持多模态视频生成，可基于图像、音频、文字创作逼真视频。Gemini Spark作为"常驻"AI智能体，可在后台自动处理邮件、扫描账单等任务。Daily Brief功能则整合日历与邮件，为用户提供每日智能摘要。

人工智能

多模态生成

产品发布

2026-04-03

微软发布三款基础AI模型挑战OpenAI与谷歌

微软AI研究实验室发布三款新的基础AI模型，可生成文本、语音和图像。MAI-Transcribe-1支持25种语言语音转文本，速度比Azure Fast快2.5倍；MAI-Voice-1可在一秒内生成60秒音频并支持自定义语音；MAI-Image-2为视频生成模型。这些模型由CEO穆斯塔法·苏莱曼领导的超级智能团队开发，定价相比谷歌和OpenAI更具竞争力，体现了微软在多模态AI领域的持续布局。

人工智能

多模态生成

智能体技术

2026-03-06

Luma推出基于统一智能模型的创意AI智能体

AI视频生成初创公司Luma发布Luma Agents，可处理文本、图像、视频和音频的端到端创意工作。该智能体基于公司的统一智能模型家族，采用单一多模态推理系统架构。Luma Agents面向广告代理、营销团队、设计工作室和企业用户，能够规划和生成多种媒体内容，并与其他AI模型协调工作。该系统可在资产、合作者和创意迭代中保持持续上下文，并通过自我评估和改进提升输出质量。

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

人工智能

多模态生成

原生集成

2025-03-13

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

谷歌最新的开源 AI 模型 Gemma 3 并不是今天 Alphabet 子公司唯一的重要新闻。实际上，谷歌的 Gemini 2.0 Flash 以原生图像生成技术吸引了更多的关注，这是一个可供 Google AI Studio 用户和开发者通过谷歌的 Gemini API 免费使用的新实验模型。这是美国主要科技公司首次将多模态图像生成直接集成到模型中供消费者使用。与其他大多数 AI 图像生成工具不同，Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像，理论上允许更高的准确性和更多的功能，早期迹象表明这一点完全正确。

白皮书

数字化转型方略

人工智能

多模态生成

世界基础模型

Cosmos 3如何帮助物理AI在行动前进行思考

人工智能

多模态生成

视频生成模型

Gemini Omni正式发布：多模态输入生成高质量视频

人工智能

多模态生成

新功能发布

Gemini五大重磅更新，谷歌I/O 2026全面解析

人工智能

多模态生成

产品发布

微软发布三款基础AI模型挑战OpenAI与谷歌

人工智能

多模态生成

智能体技术

Luma推出基于统一智能模型的创意AI智能体

人工智能

多模态生成

原生集成

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: