谷歌DeepMind发布了实验性开源模型DiffusionGemma,采用并行扩散方式生成文本,每步可同时处理最多256个token,而非逐词生成。NVIDIA对其进行了深度优化,使其在GeForce RTX GPU、RTX PRO工作站及DGX Spark等设备上实现更高性能。在单张H100 GPU上可达1000 tokens/秒,比同等自回归模型快约4倍。该模型基于Gemma 4架构,采用Apache 2.0开源协议,支持Hugging Face、vLLM等主流框架。