多模态模型文章列表第1页-至顶网频道

2026-07-01

谷歌推出Gemini Omni Flash与Nano Banana 2 Lite，助力高效媒体创作

谷歌在Gemini企业智能体平台推出两款新媒体模型：Gemini Omni Flash和Nano Banana 2 Lite。前者面向高端视频与音频生成，支持自然语言对话式编辑，视频输出定价仅为每秒0.1美元；后者专注极速图像生成，最快4秒即可输出专业级图像。WPP、Figma、Manus AI等企业已率先接入。两款模型均支持CP2A内容凭证与SynthID水印，保障生成内容的真实性。

Google AI Edge Gallery正式登陆macOS，支持在Mac上本地运行Gemini模型

谷歌正式推出面向macOS的AI Edge Gallery应用，支持用户在Mac上本地运行Gemma系列模型，无需联网，兼顾性能与隐私。同步发布的还有Gemma 4 12B多模态模型，该模型参数量达120亿，支持文本、视觉与音频处理，适配16GB内存的消费级笔记本。此外，谷歌还推出AI Edge Eloquent免费听写应用，可在设备端完成语音转录与润色，支持自定义词汇和写作风格。

AI初创公司Hark宣布完成7亿美元A轮融资，融资后估值达60亿美元。本轮由Parkway Venture Capital领投，AMD、英特尔、高通、Salesforce等多家知名机构参与。Hark由连续创业者Brett Adcock创立，致力于开发多模态AI模型及配套硬件，打造面向普通用户的通用AI交互界面。公司计划今夏发布首批多模态模型，并随后推出专属硬件设备，现有员工70人，配备英伟达B200 GPU数据中心。

人工智能

音乐生成

多模态模型

2026-04-22

Lyria 3全面解析：谷歌AI音乐生成器的功能与未来

谷歌DeepMind推出最新多模态音乐AI模型Lyria 3及更高级的Lyria 3 Pro，支持文字、音频、图像多种输入方式，可生成高保真音乐，涵盖旋律、节奏与歌词，支持八种语言。该工具面向内容创作者、教育用途及专业开发者，已集成于Gemini、Vertex AI等平台。然而，独立音乐人已就版权问题对谷歌提起诉讼，AI生成内容的版权归属与商业化风险仍存争议。

人工智能

视觉编程

多模态模型

2026-01-28

Moonshot发布Kimi K2.5：可从视频生成代码的AI模型

阿里巴巴支持的中国AI初创公司月之暗面发布Kimi K2.5模型，号称是迄今为止最强大的开源模型。该模型基于15万亿文本和视觉令牌预训练，具备原生多模态能力，可从上传的图像或视频生成Web界面。在编程基准测试中表现与OpenAI、谷歌和Anthropic的前沿模型相当。其"视觉编程"功能能够直接从视频创建前端界面，降低了用户的技术门槛。

人工智能

多模态模型

混合专家架构

2025-04-07

Meta发布Llama 4，新一代旗舰AI模型

Meta发布了Llama家族的新一代AI模型Llama 4，包括Scout、Maverick和Behemoth三个模型。这些模型在大量未标记的文本、图像和视频数据上进行训练，具备广泛的视觉理解能力。Llama 4采用混合专家架构，提高了计算效率。Meta表示，这标志着Llama生态系统新时代的开始，将为用户带来更强大的AI能力。

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

人工智能

多模态模型

模型效率优化

2025-03-13

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

Google最新的人工智能模型Gemma 3在参数和上下文窗口方面都有显著提升，旨在为开发者提供高效的单GPU或AI加速器解决方案。它支持多种数据类型的处理，并且可以在不同环境中运行。Gemma 3的上下文窗口扩展至128,000个token，适合各种硬件使用，且开源可供下载。

人工智能

机器人技术

多模态模型

2025-02-24

Microsoft 的 Magma AI 可以操控和控制机器人

微软推出了新型AI模型Magma，旨在提升机器人的视觉、理解和行动能力。Magma能同时处理多种类型的数据，是朝着"代理AI"迈出的重要一步。该模型结合了视觉和语言处理技术，经过多模态训练，可以执行操控机器人和导航用户界面等任务，为AI自动化日常生活开辟了新的可能性。

Mira Murati 离开 OpenAI 后创立 Thinking Machines Lab

人工智能

多模态模型

技术创新

2025-02-20

Mira Murati 离开 OpenAI 后创立 Thinking Machines Lab

前OpenAI首席技术官Mira Murati今天推出了一家新的人工智能初创公司——思维机器实验室，专注于开发多模态模型。该公司在竞争激烈的AI市场中崭露头角，Murati曾在四个月前与投资者洽谈筹集超过1亿美元的资金。思维机器实验室的初始团队包括前OpenAI研究高管Barret Zoph，Murati担任首席执行官，Zoph担任首席技术官。该实验室计划训练能够处理文本和多媒体文件的模型，并将基础设施质量作为首要任务，致力于提高研究生产力。

多模态模型

开源

Mini-Omni

实时语音交互

2024-09-03

第一个开源的具有实时对话能力的多模态模型：Mini-Omni

Mini-Omni是清华大学启元实验室开源的多模态模型，具备实时语音到语音的对话能力，无需额外的ASR或TTS模型。它能够边思考边说话，支持流式音频输出，并能通过'Any Model Can Talk'方法为其他模型添加语音交互能力。

AI公司

多模态模型

数据转换

Grok-1.5 Vision

2024-04-16

马斯克展示Grok-1.5 Vision：多模态，能理解真实世界

马斯克旗下AI公司x.ai推出Grok-1.5 Vision，具备视觉功能，能深度理解真实世界并进行数据解读、转换。Grok-1.5 V在多模态模型测试中超过GPT-4V等竞品，展示了强大的理解、数据转换和检索能力，如将图片翻译成Python代码。即将向早期测试者和现有用户推出。

开源

DeepSeekVL

多模态模型

训练策略

2024-03-12

DeepSeek-VL：深度求索的多模态大模型

DeepSeekVL是一款开源多模态模型，通过对训练数据、模型架构和训练策略的联合拓展，构建了7B与1.3B规模的强大模型。相关资源可通过论文链接、模型下载页面和GitHub主页获取。

IBM Granite 4.1 系列模型正式发布，覆盖语言、视觉、语音等多模态能力

人工智能

自然语言处理

多模态模型

2026-04-30

IBM Granite 4.1 系列模型正式发布，覆盖语言、视觉、语音等多模态能力

IBM正式发布Granite 4.1系列模型，涵盖小型语言模型（3B、8B、30B参数）、语音、视觉、嵌入及Guardian安全模型。新一代语言模型在指令遵循和工具调用方面表现突出，Granite Speech 4.1达到5.33%词错误率，Granite Vision 4.1专注表格与图表提取，Guardian 4.1提供校准不确定性评分用于风险检测。全系模型基于Apache 2.0协议开源，可在watsonx、Hugging Face等平台使用。

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: