谷歌今日发布并开源DiffusionGemma大语言模型,采用文本扩散技术,生成速度是传统LLM的四倍,且内存占用更低,支持消费级高端显卡运行。该模型基于图像生成的扩散原理,每次可并行生成256个token,在单块H100上速度超过每秒1000个token。DiffusionGemma拥有260亿参数,但每次仅激活38亿,结合NVFP4数据格式进一步降低显存需求。该模型已在Hugging Face上以开源许可证发布。
Google DeepMind推出Gemma 4开源模型家族新成员DiffusionGemma,采用类似图像生成的扩散机制,能并行生成整块文本,而非逐个token线性输出。该模型为MoE架构,总参数260亿,推理时仅激活38亿,可在高端消费级GPU上运行。测试显示,RTX 5090可达约700 tokens/秒,H100可突破1000 tokens/秒,约为同规模自回归模型的4倍。该模型已在Hugging Face以Apache 2.0协议开放下载。