Facebook的AI使用模式教机器人在不到10小时的训练中即可操纵对象

双臂机器人如何完成打开瓶子的任务?总是需要用一只手抓住瓶子的底部,同时用另一只手抓住瓶盖并拧开。这种高级步骤序列就是所谓的模式,值得庆幸的是,它不受对象的几何和空间状态的影响。作为一项额外的好处,与旨在通过学习策略来解决任务的强化学习技术不同,模式不需要在数小时,数周甚至数月的时间内提取数百万个示例。

最近,Facebook AI Research的一个团队试图使两个Sawyer机械臂具有从库中选择适当步骤以完成目标的能力。在每个时间步长,他们的代理人都必须决定要使用哪种技能以及要使用哪种论据(例如,施加力的位置,力的大小或要移动到的目标姿势)。尽管涉及复杂性,该团队表示,他们的方法提高了学习效率,因此仅需几个小时的培训就可以发现操纵技能。

团队的主要见解是,对于许多任务,学习过程可以分为两个部分:(1)学习任务模式和(2)学习为不同技能选择适当参数化的策略。他们断言,这种方法可以加快学习速度,部分原因是可以使用来自给定任务不同版本的数据来提高共享技能。而且,他们说这允许在相关任务之间转移学习到的模式。

“例如,假设我们已经学会了一种很好的方案,可以在仿真中使用长条,可以访问对象的姿势,几何信息等,以及更多内容,”该论文的共同作者详细解释了该工作。“然后,即使状态空间和最佳参数化(例如,抓握姿势)都存在很大差异,我们也可以将该模式重新用于相关任务,例如仅从原始摄像机观察中拾取现实世界中的托盘。由于该模式是固定的,因此针对该任务栏提取任务的策略学习将非常有效,因为它仅需要学习每种技能的(与观察相关的)论点。”

研究人员为上述两个机械臂提供了一个通用的技能库,例如扭转,提升和伸展,他们必须将其应用于涉及不同对象,几何形状和初始姿势的多个横向提升,拾取,打开和旋转任务。在MuJoCo(模拟环境)中,通过使用低维输入数据(例如几何和本体感受特征(关节位置,关节速度,末端执行器姿势))进行训练,学习了这些模式,然后在模拟以及在真实世界。

在实验过程中,Sawyer手臂(配备摄像头,并由Facebook的PyRobot开源机器人平台控制)的任务是操纵9个家用物品(例如rolling面杖,足球,玻璃罐和T型扳手),需要两个要与之配合的下颌抓爪。尽管必须从原始视觉图像中学习,但他们说系统在大约4到10个小时的培训中学会了使用2,000种技能来操纵大多数项目,并且成功率超过90%。

共同作者写道:“我们已经研究了如何利用与状态无关的技能序列来大大提高无模型强化学习的样本效率。”“此外,我们已经通过实验表明,将在模拟中学习的技能序列转移到现实世界中的任务,使我们能够非常有效地解决图像中的稀疏奖励问题,从而使训练真正的机器人执行诸如双手操作之类的复杂技能变得可行。”