并行Token生成文章列表第1页-至顶网频道

并行Token生成关键字列表

Google开源高速文本扩散大语言模型DiffusionGemma

谷歌今日发布并开源DiffusionGemma大语言模型，采用文本扩散技术，生成速度是传统LLM的四倍，且内存占用更低，支持消费级高端显卡运行。该模型基于图像生成的扩散原理，每次可并行生成256个token，在单块H100上速度超过每秒1000个token。DiffusionGemma拥有260亿参数，但每次仅激活38亿，结合NVFP4数据格式进一步降低显存需求。该模型已在Hugging Face上以开源许可证发布。

人工智能

扩散模型

并行Token生成

2026-06-11

DiffusionGemma发布：本地AI推理速度提升4倍

Google DeepMind推出Gemma 4开源模型家族新成员DiffusionGemma，采用类似图像生成的扩散机制，能并行生成整块文本，而非逐个token线性输出。该模型为MoE架构，总参数260亿，推理时仅激活38亿，可在高端消费级GPU上运行。测试显示，RTX 5090可达约700 tokens/秒，H100可突破1000 tokens/秒，约为同规模自回归模型的4倍。该模型已在Hugging Face以Apache 2.0协议开放下载。

白皮书

数字化转型方略

人工智能

大语言模型

并行Token生成

Google开源高速文本扩散大语言模型DiffusionGemma

人工智能

扩散模型

并行Token生成

DiffusionGemma发布：本地AI推理速度提升4倍

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: