1. 前言
这篇博客主要用于记录包括H2O的人形机器人相关论文总结。
一方面便于日后自己的温故学习,另一方面也便于大家的学习和交流。
如有不对之处,欢迎评论区指出错误,你我共同进步学习!
2. 正文
2.0 SMPL Skinned Multi-Person Linear (SMPL) Model
详细查看:https://blog.csdn.net/IanYue/article/details/127206953
一个3D人体mesh由6890个网格顶点和23个关节点组成
Skinned表示这个模型不仅仅是骨架点了,其是有蒙皮的,其蒙皮通过3D mesh表示,3D mesh如图所示,指的是在立体空间里面用三个点表示一个面,可以视为是对真实几何的采样,其中采样的点越多,3D mesh就越密,建模的精确度就越高(这里的由三个点组成的面称之为三角面片)。Multi-person表示的是这个模型是可以表示不同的人的,是通用的。Linear就很容易理解了,其表示人体的不同姿态或者不同升高,胖瘦(我们都称之为形状shape)是一个线性的过程,是可以控制和解释的(线性系统是可以解释和易于控制的)
2.0.1姿态参数
pose parameters,含有\(24\times3\)个参数,24个点,每个点含有相对于父节点的axis-angle 表达,也就是相对父节点的旋转角度:
影响动作姿势:θ,72个参数,后69个值在-1到1之间,3*23 + 3,影响23个关节点+1个root orientation的旋转。前三个控制root orientation,后面每连续三个控制一个关节点
2.0.2 形状参数
一组形状参数有着10个维度的数值去描述一个人的形状,每一个维度的值都可以解释为人体形状的某个指标,比如高矮,胖瘦等。
2.1 H2O:Learning Human-to-Humanoid Real-Time Whole-Body Teleoperation
IROS 2024.3.7
CMU
何泰然大佬,b站也很有名!
个人总结主要贡献点包括:
2.1.1 Retargeting(a)
将机器人的关节点映射,和SMPL的数据集的人体模型作距离的剃度下降,以最小化二者间的距离,这时人体的shape参数就需要改变了:
shape-fitted的过程
作者还对比了一下如果不这么做的结果:如果直接把人体的关节点般过去,就会导致机器人的脚部距离过小 ,走路可能会绊倒。
有一些动作比较特殊,机器人完成不了,所以需要去除:
2.1.2 Sim-to-data
将2.1.1部分的得到的运动机器人数据集(H1)的作为输入,输入到ISSAC GYM中进行训练,让机器人可以跟踪数据点进行模仿学习
- 本体状态:
- 目标状态:
- 奖励函数:
2.1.3 Real-time Teleoperation
通过RGB相机输入人体动作,通过HybrIK进行3D人体姿态估计。
说到HybrIK,这里进行简要的记录:
之前一直比较好奇他是如何通过RGB相机得到人体的3D姿态分析的:
关于HybrIK,详细查看L:https://zhuanlan.zhihu.com/p/461640390
2.2 OmniH2O: Universal and Dexterous Human-toHumanoid Whole-Body Teleoperation and Learnin
2024.6.13
2.2.1 abstarct
较之前进行了多种控制方式的扩展,比如:
还公布了一个数据集:OmniH2O-6
2.2.2 从pipeline得到的对比
第一个部分几乎没有变化,还是retargeting
(a) OmniH2O retargets large-scale human motions and filters out infeasible motions for humanoids.
第二个部分采用了模仿学习,先利用特权观测值训练一轮,然后去掉特权观测值,利用之前的几组历史本体观测值训练得到sim2real的policy网络
(b) Our sim-to-real policy is distilled through supervised learning from an RL-trained teacher policy using
privileged information.
第三个部分区别在于,这里又拓展了遥操作的多样性,versital
(c) The universal design of OmniH2O supports versatile human control interfaces
including VR headset, RGB camera, language, etc. Our system also supports to be controlled by autonomous
agents like GPT-4o or imitation learning policy trained using our dataset collected via teleoperation.
2.3 HumanPlus
大佬的解读博客
Best Paper Award Finalist (top 6) at CoRL 2024
Stanford
https://humanoid-ai.github.io/
HumanPlus的全栈人型机器人
主要贡献点
1、一个实时影子系统,允许人类操作员使用单个RGB相机和Humanoid Shadowing Transformer(简称HST)来全身控制人形机器人,该HST是一种low-level策略,基于大量的模拟人体运动的数据进行训练
2、人形模仿Transformer,本质就是模仿学习算法,能够通过40次演示高效学习:双目感知和高自由度控制
通过影子跟踪模仿施教:具体而言,通过使用上面收集的数据,然后执行监督行为克隆,并使用自我中心视觉训练技能策略,使人形机器人(33自由度、180cm高)通过模仿人类技能自主完成不同的任务
最终,机器人自主完成了穿鞋、站立行走、从仓库货架卸载物品、折叠运动衫、重新排列物品、打字以及向另一台机器人打招呼等任务
2.4 AMASS: Archive of Motion Capture as Surface Shapes
2019.4.5
介绍了AMASS,这是一个庞大而多样的人体运动数据库,通过在一个共同的框架和参数化中表示它们,统一了15种不同的基于光学标记的运动捕捉数据集
- 首先,我们开发了一种从标准动作捕捉(mocap)标记数据中准确恢复运动中的人的形状和姿势的方法。
- 创建最大的公共人类运动数据库,使机器学习能够应用于动画和计算机视觉
2.5 HOVER: Versatile Neural Whole-Body Controller for Humanoid Robot
HOVER (Humanoid Versatile Controller)
输入的
蒸馏的结构:
2.3 AMASS: Archive of Motion Capture as Surface Shapes
2.3 AMASS: Archive of Motion Capture as Surface Shapes
2.3 AMASS: Archive of Motion Capture as Surface Shapes
2.3 AMASS: Archive of Motion Capture as Surface Shapes
2.3 AMASS: Archive of Motion Capture as Surface Shapes
2.3 AMASS: Archive of Motion Capture as Surface Shapes
3. 后记
这篇博客暂时记录到这里,日后我会继续补充。