斯坦福大学为机器人操作模仿学习设计了示教新范式

近期斯坦福大学提出了通用操纵界面(UMI)–一种数据收集和策略学习框架,可将人类演示的技能直接转移到可部署的机器人策略中。

https://umi-gripper.github.io/

UMI 采用手持式抓手和精心的界面设计,可为具有挑战性的双臂和动态操纵演示提供便携式、低成本和信息丰富的数据收集。为促进可部署的策略学习,UMI 采用了精心设计的策略界面,具有推理时间延迟匹配和相对轨迹动作表示功能。学习到的策略与硬件无关,可在多个机器人平台上部署。有了这些功能,UMI 框架就能释放新的机器人操纵能力,只需改变每个任务的训练数据,就能实现零样本通用动态、双臂、精确和长序列行为。通过全面的真实世界实验证明了 UMI 的多功能性和有效性,在这些实验中,通过 UMI 零样本学习到的策略在不同的人类演示训练中可泛化到新的环境和物体。

硬件设计

如何才能仅凭一个安装在手腕上的摄像头就能为各种任务捕捉到足够的信息?UMI 的数据收集硬件采用了手持式平行钳夹的形式,并安装了 GoPro 摄像机①。为了收集可用于政策部署的观测数据,UMI 需要捕捉足够的视觉背景来推断动作②和深度③等关键信息。为了获取可部署策略的动作数据,UMI 需要捕捉人类快速运动下的精确机器人动作④、抓取宽度的微调⑤,并自动检查每个演示在特定的机器人运动学约束条件⑥下是否有效。

图片

策略稳健性

UMI 采用独特的腕式摄像头设置和以摄像头为中心的动作表示法,100% 无需校准(即使在基础移动的情况下也能正常工作),并且能够抵御干扰因素和光线的剧烈变化。

能力测试

(1) 动态抛掷 🤾

机器人的任务是将 6 件物品扔到相应的垃圾箱中,并进行分类。3 个球形物体(棒球⚾、橙子ἴ、苹果🍎)应扔进圆形垃圾箱,而 3 个乐高 Duplo 碎片则扔进长方形垃圾箱。

(2) 杯子摆放 ☕

拿起一个意式咖啡杯并将其放在杯托上,杯柄朝向机器人左侧。UMI 收集的消融数据与机器人无关。在这里,可以在 UR5e 和 Franka 机器人上部署相同的策略。事实上,可以在任何配备平行钳行程大于 85 毫米的机器人上部署该策略。

(3) 双臂折叠衣物 👚

两个机械臂需要协调配合,将毛衣袖子向内折叠,然后将下摆向上折叠,旋转 90 度,最后再将毛衣对折。如果没有机械臂之间的本体感觉(两个机械臂之间的相对姿势),两个机械臂之间的协调就会大打折扣。

(4) 洗碗 🍽

为了成功洗碗,机器人需要依次执行 7 个相关动作:打开水龙头、抓住盘子、拿起海绵、清洗并擦拭盘子直到番茄酱被擦掉、放置盘子、放置海绵和关闭水龙头。使用 ResNet-34 作为视觉编码器训练的基线策略对盘子或海绵位置的变化没有反应。

户外泛化实验

图片

有了 UMI,您可以到任何家庭、任何餐厅,在 2 分钟内开始数据收集。通过多样化的户外杯具操作数据集,UMI 使我们能够训练一种扩散策略,该策略可泛化到极度分散的对象和环境,甚至包括在饮水机顶部提供特浓咖啡杯!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/491878.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity接入SQLite (一):SQLite介绍

1.简介 SQLite是一个开源的嵌入式关系数据库管理系统。它是一种轻量级的数据库引擎,不需要单独的服务器进程,可以直接嵌入到应用程序中使用。Sqlite使用简单、高效,并且具有对标准SQL的完整支持。它适用于需要在本地存储和访问数据的应用程序…

Windows下用CMake编译VTK及配置测试

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 VTK是什么? VTK(visualization toolkit)是一个开源的免费软件系统,主要用于三维计…

Base64 编码 lua

Base64 编码 -- Base64 字符表 local base64_chars { A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,…

C#,动态规划(DP)N皇后问题(N Queen Problem)的回溯(Backtracking)算法与源代码

1 N皇后问题(N Queen Problem) 在N*N的方格棋盘放置了N个皇后,使得它们不相互攻击(即任意2个皇后不允许处在同一排,同一列,也不允许处在与棋盘边框成45角的斜线上。 2 回溯算法 回溯算法实际上一个类似枚…

Linux软件高级编程-进程基本概念--day6

1.进程: 程序: 存放在外存的一段数据组成的文件 进程: 是一个程序动态执行的过程,包括进程的创建、进程的调度、进程的消亡 2.进程相关命令: 1)top: 动态查看当前系统中所有进程信息&#xff08…

(Linux学习一):Mac安装vmWare11.5,centOS 7安装步骤教程

一。下载vmware 官网地址:下载地址 由于我的电脑系统是Mac 10.15.6版本系统,我下载的是VMware Fusion 11.5版本,13是最新版本不支持安装需要系统在11以上。 百度网盘下载地址: VMware Fusion 11 VMware Fusion 12 VMware Fusion 13 下载需要…

万界星空科技商业开源MES

一、万界星空科技商业开源MES系统概述: 万界星空科技免费MES、开源MES、商业开源MES、市面上最好的开源MES、MES源代码、适合二开的开源MES。 1.万界星空开源MES制造执行系统的Java开源版本。 开源mes系统包括系统管理,车间基础数据管理,计…

【管理咨询宝藏资料25】某能源集团五年发展战略报告

本报告首发于公号“管理咨询宝藏”,如需阅读完整版报告内容,请查阅公号“管理咨询宝藏”。 【管理咨询宝藏资料25】某能源集团五年发展战略报告 【关键词】战略规划、五年战略、管理咨询 【文件核心观点】 - LL应以快速做大做强为目标,专注…

五.AV Foundation 视频播放 - 标题和字幕

引言 本篇博客主要介绍使用AV Foundation加载视频资源的时候,如何获取视频标题,获取字幕并让其显示到播放界面。 设置标题 资源标题的元数据内容,我们需要从资源的commonMetadata中获取,在加载AVPlayerItem的时候我们已经指定了…

docker安装mongodb

1.使用docker安装mongo 1.1下载MongoDB镜像 docker pull mongo:4.4 1.2运行MongoDB容器 docker run -itd --name mongo -v /docker_volume/mongodb/data:/data/db -p 27017:27017 mongo:4.4 --auth 2.创建用户 2.1 登录mongo容器,并进入到【admin】数据库 dock…

kafka生产者

1.原理 2.普通异步发送 引入pom&#xff1a; <dependencies><dependency><groupId>org.apache.kafka</groupId><artifactId>kafka-clients</artifactId><version>3.0.0</version></dependency><dependency><g…

【wails】(6):使用wails做桌面应用开发,使用gin+go-chatglm.cpp进行本地模型运行,在windows上运行成功

1&#xff0c;整体架构说明 主要使用&#xff0c;参考的开源项目是&#xff1a; https://github.com/wailsapp/wails 前端项目&#xff1a; https://github.com/Chanzhaoyu/chatgpt-web 运行模型&#xff1a; https://github.com/Weaxs/go-chatglm.cpp 参考代码&#xff1a; h…