近期斯坦福大学提出了通用操纵界面(UMI)–一种数据收集和策略学习框架,可将人类演示的技能直接转移到可部署的机器人策略中。
https://umi-gripper.github.io/
UMI 采用手持式抓手和精心的界面设计,可为具有挑战性的双臂和动态操纵演示提供便携式、低成本和信息丰富的数据收集。为促进可部署的策略学习,UMI 采用了精心设计的策略界面,具有推理时间延迟匹配和相对轨迹动作表示功能。学习到的策略与硬件无关,可在多个机器人平台上部署。有了这些功能,UMI 框架就能释放新的机器人操纵能力,只需改变每个任务的训练数据,就能实现零样本通用动态、双臂、精确和长序列行为。通过全面的真实世界实验证明了 UMI 的多功能性和有效性,在这些实验中,通过 UMI 零样本学习到的策略在不同的人类演示训练中可泛化到新的环境和物体。
硬件设计
如何才能仅凭一个安装在手腕上的摄像头就能为各种任务捕捉到足够的信息?UMI 的数据收集硬件采用了手持式平行钳夹的形式,并安装了 GoPro 摄像机①。为了收集可用于政策部署的观测数据,UMI 需要捕捉足够的视觉背景来推断动作②和深度③等关键信息。为了获取可部署策略的动作数据,UMI 需要捕捉人类快速运动下的精确机器人动作④、抓取宽度的微调⑤,并自动检查每个演示在特定的机器人运动学约束条件⑥下是否有效。
策略稳健性
UMI 采用独特的腕式摄像头设置和以摄像头为中心的动作表示法,100% 无需校准(即使在基础移动的情况下也能正常工作),并且能够抵御干扰因素和光线的剧烈变化。
能力测试
(1) 动态抛掷 🤾
机器人的任务是将 6 件物品扔到相应的垃圾箱中,并进行分类。3 个球形物体(棒球⚾、橙子ἴ、苹果🍎)应扔进圆形垃圾箱,而 3 个乐高 Duplo 碎片则扔进长方形垃圾箱。
(2) 杯子摆放 ☕
拿起一个意式咖啡杯并将其放在杯托上,杯柄朝向机器人左侧。UMI 收集的消融数据与机器人无关。在这里,可以在 UR5e 和 Franka 机器人上部署相同的策略。事实上,可以在任何配备平行钳行程大于 85 毫米的机器人上部署该策略。
(3) 双臂折叠衣物 👚
两个机械臂需要协调配合,将毛衣袖子向内折叠,然后将下摆向上折叠,旋转 90 度,最后再将毛衣对折。如果没有机械臂之间的本体感觉(两个机械臂之间的相对姿势),两个机械臂之间的协调就会大打折扣。
(4) 洗碗 🍽
为了成功洗碗,机器人需要依次执行 7 个相关动作:打开水龙头、抓住盘子、拿起海绵、清洗并擦拭盘子直到番茄酱被擦掉、放置盘子、放置海绵和关闭水龙头。使用 ResNet-34 作为视觉编码器训练的基线策略对盘子或海绵位置的变化没有反应。
户外泛化实验
有了 UMI,您可以到任何家庭、任何餐厅,在 2 分钟内开始数据收集。通过多样化的户外杯具操作数据集,UMI 使我们能够训练一种扩散策略,该策略可泛化到极度分散的对象和环境,甚至包括在饮水机顶部提供特浓咖啡杯!