包括H2O的人形机器人相关论文总结

news/2025/2/13 12:12:26/文章来源:https://www.cnblogs.com/myleaf/p/18686665

1. 前言

这篇博客主要用于记录包括H2O的人形机器人相关论文总结。
一方面便于日后自己的温故学习,另一方面也便于大家的学习和交流。
如有不对之处,欢迎评论区指出错误,你我共同进步学习!

2. 正文

2.0 SMPL Skinned Multi-Person Linear (SMPL) Model

详细查看:https://blog.csdn.net/IanYue/article/details/127206953
一个3D人体mesh由6890个网格顶点和23个关节点组成

Skinned表示这个模型不仅仅是骨架点了,其是有蒙皮的,其蒙皮通过3D mesh表示,3D mesh如图所示,指的是在立体空间里面用三个点表示一个面,可以视为是对真实几何的采样,其中采样的点越多,3D mesh就越密,建模的精确度就越高(这里的由三个点组成的面称之为三角面片)。Multi-person表示的是这个模型是可以表示不同的人的,是通用的。Linear就很容易理解了,其表示人体的不同姿态或者不同升高,胖瘦(我们都称之为形状shape)是一个线性的过程,是可以控制和解释的(线性系统是可以解释和易于控制的)
image

2.0.1姿态参数

pose parameters,含有\(24\times3\)个参数,24个点,每个点含有相对于父节点的axis-angle 表达,也就是相对父节点的旋转角度:
image
image
影响动作姿势:θ,72个参数,后69个值在-1到1之间,3*23 + 3,影响23个关节点+1个root orientation的旋转。前三个控制root orientation,后面每连续三个控制一个关节点

2.0.2 形状参数

一组形状参数有着10个维度的数值去描述一个人的形状,每一个维度的值都可以解释为人体形状的某个指标,比如高矮,胖瘦等。
image

image

2.1 H2O:Learning Human-to-Humanoid Real-Time Whole-Body Teleoperation

IROS 2024.3.7
CMU

何泰然大佬,b站也很有名!

个人总结主要贡献点包括:
image

2.1.1 Retargeting(a)

将机器人的关节点映射,和SMPL的数据集的人体模型作距离的剃度下降,以最小化二者间的距离,这时人体的shape参数就需要改变了:
image
shape-fitted的过程
image
作者还对比了一下如果不这么做的结果:如果直接把人体的关节点般过去,就会导致机器人的脚部距离过小 ,走路可能会绊倒。
image
有一些动作比较特殊,机器人完成不了,所以需要去除:
image

2.1.2 Sim-to-data

将2.1.1部分的得到的运动机器人数据集(H1)的作为输入,输入到ISSAC GYM中进行训练,让机器人可以跟踪数据点进行模仿学习

  • 本体状态:

image

  • 目标状态:

image

  • 奖励函数:

image

2.1.3 Real-time Teleoperation

通过RGB相机输入人体动作,通过HybrIK进行3D人体姿态估计。

说到HybrIK,这里进行简要的记录:
之前一直比较好奇他是如何通过RGB相机得到人体的3D姿态分析的:
image
关于HybrIK,详细查看L:https://zhuanlan.zhihu.com/p/461640390

2.2 OmniH2O: Universal and Dexterous Human-toHumanoid Whole-Body Teleoperation and Learnin

2024.6.13

2.2.1 abstarct

较之前进行了多种控制方式的扩展,比如:
image
还公布了一个数据集:OmniH2O-6

2.2.2 从pipeline得到的对比

image
第一个部分几乎没有变化,还是retargeting

(a) OmniH2O retargets large-scale human motions and filters out infeasible motions for humanoids.

第二个部分采用了模仿学习,先利用特权观测值训练一轮,然后去掉特权观测值,利用之前的几组历史本体观测值训练得到sim2real的policy网络

(b) Our sim-to-real policy is distilled through supervised learning from an RL-trained teacher policy using
privileged information.

第三个部分区别在于,这里又拓展了遥操作的多样性,versital

(c) The universal design of OmniH2O supports versatile human control interfaces
including VR headset, RGB camera, language, etc. Our system also supports to be controlled by autonomous
agents like GPT-4o or imitation learning policy trained using our dataset collected via teleoperation.

2.3 HumanPlus

大佬的解读博客
Best Paper Award Finalist (top 6) at CoRL 2024
Stanford
image
https://humanoid-ai.github.io/
HumanPlus的全栈人型机器人
主要贡献点

1、一个实时影子系统,允许人类操作员使用单个RGB相机和Humanoid Shadowing Transformer(简称HST)来全身控制人形机器人,该HST是一种low-level策略,基于大量的模拟人体运动的数据进行训练
2、人形模仿Transformer,本质就是模仿学习算法,能够通过40次演示高效学习:双目感知和高自由度控制

通过影子跟踪模仿施教:具体而言,通过使用上面收集的数据,然后执行监督行为克隆,并使用自我中心视觉训练技能策略,使人形机器人(33自由度、180cm高)通过模仿人类技能自主完成不同的任务
最终,机器人自主完成了穿鞋、站立行走、从仓库货架卸载物品、折叠运动衫、重新排列物品、打字以及向另一台机器人打招呼等任务

2.4 AMASS: Archive of Motion Capture as Surface Shapes

2019.4.5

介绍了AMASS,这是一个庞大而多样的人体运动数据库,通过在一个共同的框架和参数化中表示它们,统一了15种不同的基于光学标记的运动捕捉数据集
image

  1. 首先,我们开发了一种从标准动作捕捉(mocap)标记数据中准确恢复运动中的人的形状和姿势的方法。
  2. 创建最大的公共人类运动数据库,使机器学习能够应用于动画和计算机视觉

2.5 HOVER: Versatile Neural Whole-Body Controller for Humanoid Robot

HOVER (Humanoid Versatile Controller)
输入的
image

蒸馏的结构:
image

2.3 AMASS: Archive of Motion Capture as Surface Shapes

2.3 AMASS: Archive of Motion Capture as Surface Shapes

2.3 AMASS: Archive of Motion Capture as Surface Shapes

2.3 AMASS: Archive of Motion Capture as Surface Shapes

2.3 AMASS: Archive of Motion Capture as Surface Shapes

2.3 AMASS: Archive of Motion Capture as Surface Shapes

3. 后记

这篇博客暂时记录到这里,日后我会继续补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/883159.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【守护大地的安宁】地质灾害防治知多少?

当我们谈及自然灾害,地质灾害总是以其突发性和破坏力给人类社会带来严峻挑战。了解地质灾害的本质、防治工作的基本原则以及管理的综合体系,对于提升社会整体的抵御能力至关重要。今天,就让我们一起深入探讨地质灾害的奥秘,以及如何有效守护我们脚下的这片土地。地质灾害:…

DeepSeek R1,本地部署!支持WebUI

DeepSeek R1,本地部署才是王道!支持WebUI原创 阮小贰 阮小贰 阮小贰 科技自媒体阮小贰,AIGC拓荒人~38篇原创内容2025年01月31日 17:52 广东 DeepSeek R1本地部署,享受无限制、高隐私的AI体验! 核心内容:DeepSeek全球下载榜单登顶,流量巨大。DeepSeek R1是什么?De…

LLM4Rec:字节HLLM

背景 目前主流的推荐模型都是ID-based,这种ID-based的模型依赖user合item的交互信息,无法利用item和user的多模态信息,对冷启动不友好。 随着近年来LLM的突破性进展, 业界也在不断探索LLM在推荐系统中的应用, 这里大概可以分成三类:信息增强: 利用LLM为推荐系统提供一些精细…

安川SCARA机械手维修知识归纳

在工业自动化领域,安川机器人(YASKAWA机器人)以其高精度和可靠性著称,尤其是其SCARA机器人广泛应用于装配、搬运和分拣等任务。然而,即便是最可靠的设备也难免会出现故障。当安川SCARA机器人齿轮箱不转时,通常表现为机器人无法正常执行动作,或动作过程中出现卡顿、异响等…

2025-02-13.防流氓软件篡改主页

近期本人Windows 11启动后浏览器主页总被修改,禁用某些启动进程后问题仍没有彻底解决。具体现象为: chrome收藏夹的百度链接变成:bd.dhyto.com/lbd06 chrome每次启动,打开首页:360导航_一个主页,整个世界http://hao360.hjttif.com/dhhj edge每次启动,打开首页:http://p…

支付宝云Serveless+豆包AI实现AI日语学习APP

1. 引言 最近学日语,发现动词、形容词的变形规则又多又复杂,在不同语境里变化也不一样,句子结构和语法也很麻烦。为了提高学习效率,决定开发基于AI的日语学习APP,借助 AI 进行辅助学习,目前已经完成单词分析、句子结构分析、跟读功能。2. 技术栈 1. 支付宝云Serve less;…

DeepSeek V3/R1满血版,上线华为云

昇腾云服务已适配DeepSeek系列模型,欢迎广大开发者使用。摘要:昇腾云服务已适配DeepSeek系列模型,欢迎广大开发者使用。 DeepSeek V3/R1 671B旗舰模型(满血版),通常需要高端GPU进行推理,现在基于华为云昇腾云服务的全栈优化适配,可获得持平全球高端GPU部署模型的效果,…

相对单位rem和em的区别

1.rem css3中的rem是一个相对单位,是相对根元素字体大小的单位;使用rem的优点就是在计算子元素有关的尺寸时,只要根据html元素字体大小来计算即可. 注意:这个根元素是最大的那个根也就是html,见下图,一般浏览器默认的值是16px,也就是随着他的改动而改动。修改其他父元素…

80N03-ASEMI电机控制专用MOS管80N03

80N03-ASEMI电机控制专用MOS管80N03编辑:ll 80N03-ASEMI电机控制专用MOS管80N03 型号:80N03 品牌:ASEMI 封装:TO-252 最大漏源电流:80A 漏源击穿电压:30V 批号:最新 RDS(ON)Max:6.5mΩ 引脚数量:3 沟道类型:N沟道MOS管 芯片尺寸:MIL 漏电流: 恢复时间:ns 芯片材…

日志收集工具Telegraf和Promtail

日志收集和指标输出工具Telegraf以及Promtail工具说明Telegraf:Telegraf 是一个用于收集、处理、聚合和写入指标、日志和其他任意数据的代理。 提供超过 300 个插件的综合套件,涵盖系统监控、云服务和消息传递等广泛功能 支持集成用户定义的代码,以高效地收集、转换和传输数…

Docker问题:docker: Error response from daemon

问题 docker 拉取镜像失败解决方法 1、在 Docker 的配置文件中设置代理 编辑 Docker 配置文件 /etc/systemd/system/docker.service.d/http-proxy.conf(如果没有该文件,您可以手动创建它) sudo mkdir -p /etc/systemd/system/docker.service.d sudo vim /etc/systemd/system…

CTF-web-你必须让他停下来

1.首先打开题目2.按要求进行停止,直接使用Burp进行抓包3.逐个放行,当停留在图片10时,得到flag4.flag