MIT研究人员开发出一种基于生成式AI的视觉任务规划方法,在机器人导航等长期视觉任务上的效果比现有技术提升约一倍。该方法使用专门的视觉语言模型感知图像场景并模拟达成目标所需的行动,然后由第二个模型将模拟结果转换为标准规划编程语言并完善解决方案。系统平均成功率达70%,远超基准方法的30%,且能解决未曾遇到的新问题。