中国AI开发商DeepSeek正式发布V4大语言模型系列,包含旗舰版V4-Pro和轻量版V4-Flash两款模型。两款模型均采用混合专家(MoE)架构,V4-Pro拥有1.6万亿参数,V4-Flash拥有2840亿参数。V4系列引入混合注意力机制,将KV缓存内存占用较上一代降低90%。此外,V4还新增mHC特性支持层间数据直连传输,并使用Muon模块优化隐藏层训练。基准测试显示,V4-Pro在多项测试中超越Claude Opus 4.6等前沿模型。目前两款模型已在Hugging Face上线预览。