基本的机器人抓取问题已经被解决了。也就是说,抓住物理物体,抓牢它不放,然后用它做一些有用的事情,这已经是机器人能做到的。困难的部分在于,让机器人决定要抓取什么和如何抓取。这可能非常非常困难,尤其是当处在结构化环境之外的时候。

这是目前机器人学面临的一个决定性问题:机器人可以做任何你想做的事情,但需要你每一次都确切地告诉他们,要处理的对象是什么。在那些让机器人一遍遍地做同样事情的工厂里,这不是一个问题。然而,如果把一些新的或者不同的东西混合在物品堆里,这对机器人来说就成为一个非常头痛的问题。

在过去的几年中,加州大学伯克利分校的 Pieter Abbeel 等研究人员一直在开发新的机器人教学方法,例如教会机器人如何学习,而不仅仅是如何服从。本周,Abbeel 和来自加州大学伯克利分校与 OpenAI 的几位同事宣布创立一个名为“Embodied Intelligence”的公司,目前他们已经拥有 700 万美元的种子资金。这家公司的使命是“使工业机器人手臂能感知并像人类一样行动,而不仅仅是遵循预编程的轨迹”。

从他们的新闻稿摘要中我们也可以窥见 Embodied Intelligence 的想法:

“我们正在构建技术,以使机器人硬件能够处理现有解决方案中存在的更广泛的任务,例如,进行复杂形状箱体拾取,搭配、装配、不规则堆栈卸垛以及操纵可变形物体(如电线,电缆,织物,亚麻布,流体袋和食物)。”

“为了使现有机器人具备这些技能,我们的软件建立在深度强化学习,深度模仿学习和 few-shot 学习的最新进展上,创始团队为此付出了巨大努力。其结果不仅仅是为现有机器人动作集合增加新的动作,还包括可以学习新任务的机器人,这些机器人可以在短时间内完成新任务。

任何在加州大学伯克利分校机器人学习实验室跟随 Abbeel 做研究的人都会熟悉这里的背景。机器人毛巾折叠实验可能是这家实验室最著名的研究,但这家实验室也一直在通过向机器人做示范来让机器人进行适应性学习,就像 2013 年的这个机器人打结视频:

这里展示了两件重要的事情。首先,在这个示例中,人类展示了机器人如何在没有任何明确的编程的情况下打结,然后将示范中的技巧应用于将来的打结任务。这导致了第二个重要的事情:由于没有固定其位置,绳索可以以各种不同的位置配置开始,所以机器人必须能够识别出位置配置,并相应地修改其行为。

虽然人类可以毫不费力地做这种事情,但机器人仍然不能这样做,这就是为什么人类和机器人的能力之间存在如此巨大的差距。Embodied Intelligence 想要让快速灵活学习的机器人弥合这种差距。

Abbeel 告诉我们:“在 2012 年前后,我们得出的结论是,用一直遵循的更多工程方法来实现我们想要的真实世界能力是非常困难的。旧的工程方法中有很多的学习过程,但真实的问题是,让学习和工程相结合,才能玩得转。”之后,人工智能领域出现了一个突破:斯坦福的 ImageNet 项目表明,机器学习可以做更多的事情,只要你愿意收集足够的数据,并为你的任务训练一个大而深的神经网络。

他说,Abbeel 和他的团队从此“非常努力地推动强化学习和模仿学习”,而且他们已经达到了一个新的阶段,令机器人不仅可以用于需要处理大量变化的家用场景,也可以用于制造和物流方面。

Embodied 的目标是那些重复性的操作任务,在对付这些任务时,目前最先进的自动化功能不够强大。它的目标也包括需要机器人经常重新编程的任务。

 Abbeel 说:“在实践层面上,我们正在建立一个能够非常快速地学习新技能的软件系统,这与传统的自动化有很大的不同。

这个想法是,通过一个足够灵活的学习框架,让编程变得微不足道,因为机器人可以在开始的时候只需要一点点的人类示范,就可以快速地教授自己的新技能。正如 Abbeel 所解释的那样:“最大的不同之处在于,我们带来的软件只需提前一次写入所有应用程序即可。然后,为了使机器人能够适用特定的应用程序,我们所需要做的就是收集该应用程序的新数据。这是一个从需要为每个特定任务编程到只需编程一次的模式转换。编程后,通过示范或强化学习进行数据收集。”

在过去几年里,如何教授机器人新技能受到了人们的关注。正如你在机器人打结视频中看到的那样,你要做的只是,物理地移动机器人并按下控制器上的按钮。大多数工业机器人都是通过安装某种教学挂件,以相同的方式工作。这相当耗时,并且并不直观,而且它会在机器人的经历和人类老师的经历之间产生一个巨大的空隙,因为人类的视角(甚至整个感知系统的视角)与正在被教授的机器人的视角完全不同。

基于机器人实验室最近的一些研究,Embodied 正在采取一种基于虚拟现实的新方法。Abbeel 说:“真正有趣的是,我们已经达到了让虚拟现实成为商品的地步。这意味着实际上,你可以在机器人虚拟现实中教授它各种东西,这样机器人回到现实中后就可以完成所有工作。就数据质量而言,这是一个巨大的变化。”

因为以这种方式收集的数据质量非常高,教授机器人的新技能要快得多。上面的视频中教导每个任务只需要 30 分钟的时间(有时候还更少)就能实现高成功率(从 80%上升到 90%)。在这个过程中,系统学习的是一门技巧,而不是一系列的动作,这意味着它可以适应未经过明确训练的可变性。这对于在研究环境之外进行操作至关重要

成功率达到 80%或 90%的成果,从研究角度看是好的,但是从制造业的角度看,这样的机器人还不够好,特别是如果速度太慢的话。

Embodied Intelligence 理解这个问题,但 Abbeel 说,机器人会很快变好,它可能达不到 100%的准确性,它可能不是以人的速度移动,但下一阶段的学习会通过强化学习完善和加速执行,这些加起来会给机器人带来崭新的技能。

Embodied 将专注于目前机器人不擅长的视觉运动技能,在这些技能中机器人需要持续的视觉反馈来执行任务。操纵电线和电缆就是一个很好的例子——如果你希望你的机器人能够把一件事物插入另一件事物,它必须能够在任意的位置和方向上识别和掌握柔软的东西,这可能很难明确编程。

对于 Embodied 能够教给其系统多复杂的技能,Abbeel 说,这取决于用遥控可以做什么。“只要一个人能遥控机器人去做这个工作,我们描述它的方式就是可以学习的。当然,任务越复杂,需要的数据就越多,随着时间的推移我们会知道给定任务到底需要多少数据量。但是,实际的衡量标准是,我们坐在遥控器后面,试图通过遥控机器人来完成任务,如果我们能够用遥控器做到,那么我就会知道,也能训练机器人自己做到这个任务。”

还有其他一些公司同样瞄准了这个方向,包括 Kindred,Kinema Systems 和 RightHand Robotics,这些公司提供机器人操纵解决方案,可以在一定程度上管理任务变化并适应新的任务。我们可以等等看,Embodied Intelligence 到底能做到什么程度。Abbeel 称他们在接下来的几个月内还会有一些视频演示。

-End-

编辑:周亮     校审:黄珊

参考:

https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/ai-startup-embodied-intelligence