图片速览 PoseGPT:基于量化的 3D 人体运动生成和预测(VQVAE)

papercode
https://arxiv.org/pdf/2210.10542.pdfhttps://europe.naverlabs.com/research/computer-vision/posegpt/

方法 将动作压缩到离散空间。使用GPT类的模型预测未来动作的离散索引。使用解码器解码动作得到输出。
效果 提出的方法在HumanAct12(一个标准但小规模的数据集)以及BABEL(最近的大规模MoCap数据集)和GRAB(人-物体交互数据集)上取得了最先进的结果。

方法总览

        PoseGPT 生成一个人体运动序列,以动作标签、持续时间 T T T 为条件(观察到的过去人类运动为可选条件)。类似GPT[54]的模型G按顺序预测离散的潜在指数,这些指数使用解码器D解码为生成的人体运动。当也对过去的人体运动进行调节时,输入的人体运动用 E 编码,并使用 q ( ⋅ ) q(\cdot) q() 量化到离散潜在空间中。

在这里插入图片描述

实现细节

VQVAE

        潜在空间的离散性和压缩性使类似 GPT 的模型能够专注于长距离信号,因为它消除了输入信号中的低级冗余。编码器 E 将人体运动 p 映射到潜在表示 z ^ \hat z z^,然后使用码本 Z \mathcal Z Z 对其进行量化。解码器 D 从量化的潜在序列 z q z_q zq 重建人体运动 p ^ \hat p p^
在这里插入图片描述

Attention

        屏蔽注意力图 :在编码器中屏蔽注意力图会导致模型可以根据过去的观察结果进行调节。在解码器中屏蔽注意力图也允许模型进行在线预测。
在这里插入图片描述

未来运动预测

        在离散潜在空间中,自回归转换器模型 G 根据前一个潜在指数预测下一个潜在指数。我们以人体动作标签、序列持续时间和观察到的运动为条件。
在这里插入图片描述

结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/284985.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM之RAG实战(五)| 高级RAG 01:使用小块检索,小块所属的大块喂给LLM,可以提高RAG性能

RAG(Retrieval Augmented Generation,检索增强生成)系统从给定的知识库中检索相关信息,从而使其能够生成事实信息、上下文相关信息和特定领域的信息。然而,在有效检索相关信息和生成高质量响应方面,RAG面临…

分布式理论 | RPC | Spring Boot 整合 Dubbo + ZooKeeper

一、基础 分布式理论 什么是分布式系统? 在《分布式系统原理与范型》一书中有如下定义:“分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像单个相关系统”; 分布式系统是由一组通过网络进行通信、为了完成共同的…

K8S(十一)—Service详解

目录 Service发布服务(服务类型)type: ClusterIP选择自己的 IP 地址例子 type: NodePort选择你自己的端口为 type: NodePort 服务自定义 IP 地址配置例子 type: LoadBalancer混合协议类型的负载均衡器禁用负载均衡器节点端口分配设置负载均衡器实现的类别…

[Ray Tracing in One Weekend] 笔记

前言 本文参照自raytracing in one weekend教程,地址为:https://raytracing.github.io/books/RayTracingInOneWeekend.html 什么是光线追踪? 光线追踪模拟现实中的成像原理,通过模拟一条条直线在场景内反射折射,最终…

阅览窗格功能虽然便利,但有时会出错,特别是在Word和Excel文件中更为常见

当你打开预览窗格功能时,每次你打开Windows文件资源管理器并选择任何文件,你将在屏幕的右窗格上看到该文件的小预览缩略图。 由于这个新功能,你可以在Windows资源管理器的右窗格上以缩略图的形式看到文件的小预览。此功能在更快地识别文件方…

OpenCV技术应用(7)— 将图像转为热力图

前言:Hello大家好,我是小哥谈。本节课就手把手教大家如何将一幅图像转化成热力图,希望大家学习之后能够有所收获~!🌈 目录 🚀1.技术介绍 🚀2.实现代码 🚀1.技术介绍 伪彩色处…

压力测试详解

压力测试 压力测试是看当前软硬件环境下系统所能承受的最大负荷,找出系统瓶颈。为了在线上的处理能力和稳定性维持在一个标准范围内,做到心中有数。 在压力测试,我们希望找到其他测试方法(单元测试)更难发现的错误&a…

数据可视化(附带操作实例)

一、主要目的: 数据可视化是关于图形或表格的数据展示,旨在借助图形化手段,清晰有效的传达与沟通信息。通过直观地传达关键内容与特征,从而实现对相当稀疏而又复杂的数据集的深入洞察。熟悉在Python开发环境中支持数据可视化环节…

机器学习 | SVM支持向量机

欲穷千里目,更上一层楼。 一个空间的混乱在更高维度的空间往往意味着秩序。 Machine-Learning: 《机器学习必修课:经典算法与Python实战》配套代码 - Gitee.com 1、核心思想及原理 针对线性模型中分类两类点的直线如何确定。这是一个ill-posed problem。…

百度 STI2 赛题二-基于向量交集的 TopK 搜索 优化学习笔记

百度 STI2 赛题二-基于向量交集的 TopK 搜索 优化学习笔记 注: 本文主要是对参赛冠军团队"晨曦"的 xiatwhu/baidu_topk 代码的学习整理, 下文中的"代码作者"即指的该仓库的作者. 赛题信息 给定850万条规模的数据文件,每条数据是最大128维度的…

Linux线程——基本知识

线程与进程的区别 典型的UNIX/Linux进程可以看成只有一个控制线程: 一个进程在同一时刻只做一件事情。有了多个控制线程后,在程序设计时可以把进程设计成在同一时刻做不止一件事,每个线程各自处理独立的任务。 进程有独立的地址空间,一个进…

如何让32位.Net 应用打开3G开关

昨天刚分享了《如何让.NET应用使用更大的内存》&#xff0c;结果就有同学说&#xff0c;<最好加一下32位如何开启大内存&#xff0c;因为很多传统项目32位&#xff0c;实在迁移不动了>&#xff0c;那么&#xff0c;我就验证了一些可行的方案&#xff0c;发现都挺简单的。…