在一篇即将发表的论文“Dexterous In-Hand Manipulation”(灵巧的手工操作)中,OpenAI 的研究人员展示了一种使用增强模型的系统,它在一系列反复的试验与试错中让 AI 进行学习,最终指导机器人用手臂以精准的尺度抓取并操控物体。更令人意外的是,它完全在计算机模拟中进行数字训练,没有提供任何人类演示。
“对人类而言,灵巧地操控物体属于基本日常,但对机器人却颇具挑战,”团队写道。“目前的机器人通常是在有限的设置中完成特定的任务,很多都不能驾驭复杂的末端执行器。在这项研究中,我们演示了控制策略的培训方法,这些控制策略可以进行手工操作,并且可以部署在机器人上。”
那么他们是如何做到的?研究人员用 MuJoCo 物理引擎来模拟物理环境,让真实的机器人可以在其中进行操作。他们还用 Unity 渲染图像,通过培训计算机视觉模型来让机器人识别姿势。但这种方法有局限性,模拟只是物理模型的“粗略近似”,过渡到现实世界中可能就有点困难了。
图丨 OpenAI 的机器人系统开发的新型物体操控手臂
他们的解决方案是将各个环境变量随机化,比如物理(摩擦、重力、关节限制、物体尺寸等)和视觉外观(亮度、姿势、材料及纹理)。这既降低了过度拟合(神经网络在训练中受噪音干扰而对其性能产生负面影响的现象)的可能性,又增加了生成有效算法的机会,让机器人基于真实世界手势与姿势选择动作。
接下来,研究人员开始训练循环神经网络模型。384 台计算机,每台配备 16 核 CPU,每小时可以产生约两年的模拟经验。在一个 8 核 CPU 电脑上进行优化后,他们又进入下一步:训练卷积神经网络。卷积神经网络可以通过三个模拟摄像机图像来预测机器人手中物体的位置和方向。
图丨模型训练流程图
模型训练完成后就可以开始验证测试了。研究人员使用的是幻影手臂(Shadow Dexterous Hand),它是一个拥有 24 个自由度的五指机器人手臂。为了操控物体,手臂被安装在铝制框架上。研究人员同时用两组摄像机(动作捕捉摄像机与 RGB 摄像机)作为系统的眼睛,它可以追踪物体的旋转与方向。(虽然幻影手臂有触摸传感器,但团队仅选择使用其关节感应功能对手指位置进行细粒度控制。)
团队测试了两次。第一次测试中,算法的任务是将标有字母的立方体重新定向。团队随机选取字母,AI 系统完成之后就更换新字母,如此一直重复,直到立方体从机器人手中脱落,或者操控一个立方体要所需时间超过 1 分钟,又或者机器人成功操作 50 次。在第二次测试中,研究人员将立方体替换为八角棱柱。
结果如何呢?这些模型不仅有“前所未有”的表现,而前还顺便发现了人类的抓取动作,比如三角抓取(用拇指、食指和中指抓取),棱镜抓取(拇指与其它手指相互对立),还有指尖捏握。它们还学会了如何旋转机器人手臂,以及如何利用重力、平移和扭转力将物体放入理想位置。
“我们的系统不仅能重新发现人类的抓取技能,还能让抓取动作更好地适应自身的局限和能力,”他们写道。
但它还不够完美。它还没有接受操控多个物体的训练,抓取球形物体很费劲。在第二次测试中,模拟和真实的机器人操作之间存在测量得到的性能差距。
但最终,该研究展现了当代深度学习算法的潜力。研究人员总结说:“现实世界中有一些问题是那些非学习型机器人无法解决的,我们的算法可以解决这些问题”。