混合专家架构文章列表第1页-至顶网频道

混合专家架构关键字列表

美团开源1.6万亿参数LongCat-2.0大语言模型，声称使用国产芯片训练

美团今日发布新一代开源大语言模型LongCat-2.0，参数量达1.6万亿，采用稀疏混合专家架构（MoE），支持100万token超长上下文窗口。该模型完全基于国产AI芯片集群训练，有效降低对英伟达GPU的依赖。美团表示，LongCat-2.0定位为AI智能体的"大脑"核心，在代码理解、自动化任务执行及长期目标管理等方面表现突出，其综合性能可与谷歌Gemini、GPT-5.5及Claude Opus等顶级闭源模型媲美。

人工智能

大语言模型

混合专家架构

2026-03-12

英伟达发布Nemotron Super 3智能体模型，吞吐量提升五倍

英伟达发布了迄今为止最强大的AI模型Nemotron Super 3，专为大规模智能代理系统设计。该模型采用1200亿参数的混合专家架构，具备先进推理能力和快速处理速度。相比前代产品，吞吐量提升五倍，准确性翻倍。模型具有100万token上下文窗口，推理时仅激活120亿参数，在Blackwell GPU上运行可将推理速度提升四倍。

AI21 Labs 获得来自 Google 和 Nvidia 的 3 亿美元融资拓展企业级 AI 产品

人工智能

大语言模型

混合专家架构

2025-05-13

AI21 Labs 获得来自 Google 和 Nvidia 的 3 亿美元融资拓展企业级 AI 产品

以色列 AI 初创公司 AI21 Labs 获得谷歌和英伟达3亿美元的 D 轮融资，进一步推进大型语言模型与企业级人工智能产品研发，总融资额达6.36亿美元。

人工智能

多模态模型

混合专家架构

2025-04-07

Meta发布Llama 4，新一代旗舰AI模型

Meta发布了Llama家族的新一代AI模型Llama 4，包括Scout、Maverick和Behemoth三个模型。这些模型在大量未标记的文本、图像和视频数据上进行训练，具备广泛的视觉理解能力。Llama 4采用混合专家架构，提高了计算效率。Meta表示，这标志着Llama生态系统新时代的开始，将为用户带来更强大的AI能力。

大语言模型

开源

Grok-1

混合专家架构

2024-03-18

600GB显存才能拉起来的Grok-1不太惊艳！马斯克大模型企业xAI开源Grok-1，截止目前全球参数规模最大的MoE大模型！

马斯克旗下大模型公司开发的Grok-1大语言模型已开源，采用Apache2.0协议。Grok-1是一个混合专家架构模型，参数总数3140亿，每次推理激活860亿。虽然在MMLU和GSM8K评测中表现不错，但与同类模型相比资源消耗大而收益不显著。开源的仅为推理代码，训练基础设施和tokenizer的特殊token作用未透露。

白皮书

数字化转型方略

人工智能

大语言模型

混合专家架构

美团开源1.6万亿参数LongCat-2.0大语言模型，声称使用国产芯片训练

人工智能

大语言模型

混合专家架构

英伟达发布Nemotron Super 3智能体模型，吞吐量提升五倍

人工智能

大语言模型

混合专家架构

AI21 Labs 获得来自 Google 和 Nvidia 的 3 亿美元融资拓展企业级 AI 产品

人工智能

多模态模型

混合专家架构

Meta发布Llama 4，新一代旗舰AI模型

大语言模型

开源

Grok-1

混合专家架构

600GB显存才能拉起来的Grok-1不太惊艳！马斯克大模型企业xAI开源Grok-1，截止目前全球参数规模最大的MoE大模型！

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: