谷歌为Gemma 4开源模型推出多令牌预测(MTP)技术,通过推测解码预判未来令牌,使本地推理速度最高提升3倍。测试显示,Gemma E2B和E4B在Pixel手机上分别提速2.8倍和3.1倍,Gemma 4 31B在苹果M4芯片上提速2.5倍。MTP草稿模型共享主模型的键值缓存,减少重复计算,且经主模型并行验证,确保输出质量不下降。相关模型已通过Apache 2.0许可开放。