推测解码 关键字列表
Red Hat发布AI平台新版本,全力助推企业级AI落地部署

Red Hat发布AI平台新版本,全力助推企业级AI落地部署

红帽在亚特兰大峰会上发布Red Hat AI 3.4,聚焦企业混合云环境下的大规模推理与智能体AI部署。新版本引入模型即服务能力、分布式推理支持及推测解码技术,可将文本生成速度提升至三倍。此外,红帽还宣布与Nvidia深化合作,支持Blackwell架构;与Voyager Technologies合作将Linux部署至国际空间站;并携手日产汽车共同开发软件定义汽车平台。

谷歌Gemma 4 AI模型借助多Token预测实现三倍提速

谷歌Gemma 4 AI模型借助多Token预测实现三倍提速

谷歌为Gemma 4开源模型推出多令牌预测(MTP)技术,通过推测解码预判未来令牌,使本地推理速度最高提升3倍。测试显示,Gemma E2B和E4B在Pixel手机上分别提速2.8倍和3.1倍,Gemma 4 31B在苹果M4芯片上提速2.5倍。MTP草稿模型共享主模型的键值缓存,减少重复计算,且经主模型并行验证,确保输出质量不下降。相关模型已通过Apache 2.0许可开放。