谷歌DeepMind发布新的离线视觉语言行动模型,让机器人无需云端支持即可自主运行。该模型基于Gemini的多模态理解能力,能够完成系鞋带、折衣服等复杂任务。相比之前的混合云端模式,新模型准确性仅略有下降,但大幅提升了响应速度和隐私保护。开发者可通过SDK进行定制化调优,仅需50-100次演示即可适应新任务。