谷歌发布的Gemma 4模型与Arm计算平台深度协同,推动端侧AI从云端依赖转向本地推理。基于Armv9架构的SME2指令集,Gemma 4在预填充阶段实现平均5.5倍加速,解码速度提升最高1.6倍。通过Arm KleidiAI软件加速层,开发者无需修改现有代码即可获得性能优化。以无障碍应用Envision为例,视障用户可在无网络环境下实现实时场景描述,兼顾低延迟与隐私保护。
谷歌基于TensorFlow Lite演进的设备端推理框架LiteRT引入先进加速功能,基于下一代GPU引擎ML Drift。LiteRT的GPU性能比TFLite快1.4倍,提供GPU和NPU跨边缘平台的统一加速工作流,支持生成式AI模型的优秀跨平台部署,并通过无缝模型转换提供PyTorch和JAX支持。该框架支持OpenCL、OpenGL、Metal和WebGPU,可在移动、桌面和Web端部署模型,同时提供简化的NPU部署工作流。