混合专家模型文章列表第1页-至顶网频道

混合专家模型关键字列表

DeepSeek V4发布：效率大幅提升，支持华为昇腾NPU

DeepSeek发布新一代开源大语言模型V4，包含2840亿参数的Flash版和1.6万亿参数的Pro版。V4-Pro经33万亿token训练，性能据称超越所有开源模型并媲美西方顶级商业模型。新模型引入混合注意力机制与FP4/FP8混合精度，内存占用较V3降低近14倍，支持百万token上下文窗口。值得关注的是，V4已验证可在英伟达GPU及华为昇腾NPU平台上运行。API定价方面，Pro版每百万输入token仅需1.74美元，远低于OpenAI同类产品。

人工智能

混合专家模型

模型优化

2026-02-17

阿里巴巴发布多模态Qwen3.5混合专家模型

阿里巴巴发布Qwen3.5人工智能模型，声称在某些任务上超越GPT-5.2和Claude 4.5 Opus。该开源模型采用专家混合架构，拥有3970亿参数，每次推理仅激活170亿参数，支持262,144个token的上下文长度。模型结合线性注意力机制和门控增量网络等优化技术，显著提升硬件效率。支持210多种语言和图像处理，在多项基准测试中表现优异。

马斯克

Grok-1开源

3140亿参数

混合专家模型

2024-03-19

马斯克打脸OpenAI，全球最大巨无霸模型Grok-1开源！3140亿参数8个MoE，GitHub狂揽6k星

马斯克旗下xAI开源了Grok-1，一个3140亿参数的混合专家模型，成为迄今为止参数量最大的开源LLM。Grok-1未针对特定任务微调，使用JAX和Rust自定义训练堆栈训练。项目在GitHub上迅速获得关注，马斯克借此讽刺OpenAI的开放性。Grok-1的开源可能推动AI技术的广泛采纳和快速发展，同时加入开源与闭源的辩论。

白皮书

数字化转型方略

大语言模型

混合专家模型

KV Cache压缩优化

DeepSeek V4发布：效率大幅提升，支持华为昇腾NPU

人工智能

混合专家模型

模型优化

阿里巴巴发布多模态Qwen3.5混合专家模型

马斯克

Grok-1开源

3140亿参数

混合专家模型

马斯克打脸OpenAI，全球最大巨无霸模型Grok-1开源！3140亿参数8个MoE，GitHub狂揽6k星

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: