[Paper Reading] Multiple View Geometry Transformers for 3D Human Pose Estimation

news/2024/11/17 12:59:37/文章来源:https://www.cnblogs.com/fariver/p/18357747

Multiple View Geometry Transformers for 3D Human Pose Estimation

link
时间:CVPR2024
机构:University of Toronto && Southeast University && Microsoft Research Asia

TL;DR

提出一种基于Transformer端到端3D Human Pose Estimation方法MVGFormer,核心模块是geometry与appearance模块。前者是无参可微的,泛化更友好;后者是可学习的,对提高精度更友好。效果SOTA。

Method

Query

Query 𝑸 = (𝑭, 𝑷)两部分构成,其中,appearance项\(F_k ∈ R_{J×L}\),geometry项\(P_k ∈ R_{J×3}\)

Decoder

Appearance Module

输入:多目features、Query
输出:

  • Attention Features:3D Poses投影到多目局部特征进行attention
  • 2D Poses:上一轮3D Poses投影2D pose作为anchor,使用attention features预测residual。两者叠加。
  • Condidence:2D Pose点的置信度

Geometry Module

核心操作就是可微的三角化
输入:Appearance Module的输出
输出:𝑭, 𝑷
下图是在Appearance项上增加一个MLP预测instance的score,从而过滤掉一些低质量的query减少计算量。

Loss

通过距离来匹配GT与Pred之间的Match关系,从而计算2D与3D误差的Loss。

实验代码:https://github.com/XunshanMan/MVGFormer/tree/master
效果可视化:https://github.com/XunshanMan/MVGFormer/blob/master/figures/cmu_demo.gif

Experiment



各种维度的Ablation

总结与发散

1.看效果视频遮挡方面效果还可以(可能是视角跨度比较大)
2.三角化、提取Attention Feature在端侧实际部署可能有问题

资料查询

折叠Title FromChatGPT(提示词:XXX)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/783469.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL8.0 Clone Plugin 实现解析浅析

MySQL8.0 Clone Plugin 实现解析浅析 从8.0.17版本开始官方实现了clone的功能,允许用户通过简单的SQL命令把远端/本地的数据库实例拷贝到其他实例后快速拉起一个新的实例。 该功能由一些列的WL组成 :Clone local replica(WL#9209) : 实现了数据本地Clone。 Clone remote repli…

USB协议详解第8讲(USB描述符-字符串和语言ID描述符)

1.字符串描述符相关概念 字符串描述符:首先,字符串描述符就是用字符串描述一个设备的一些属性,毕竟人能看懂的是字符,而不是十六进制,描述的属性包括设备厂商名字、产品名字、产品序列号、各个配置名字、各个接口名字,还有就是由我们用户自己定义的字符串,说白了就是起名…

【Azure Developer】使用Python SDK去Azure Container Instance服务的Execute命令的疑问解释

Azure 容器实例(Azure Container Instances,简称 ACI)是一个无服务器容器解决方案,允许用户在 Azure 云环境中运行 Docker 容器,而无需设置虚拟机、集群或编排器。ACI 适用于任何可以在隔离容器中操作的场景,包括事件驱动的应用程序、从容器开发管道快速部署、数据处理和…

DCDC电路设计之FB引脚布线

该随笔从与非网上搬运,原文: 案例讲解,DCDC电源反馈路径的布线规则 下面为正文内容: 在本文中,将对用来将输出信号反馈给电源ic的FB引脚的布线进行说明。 反馈路径的布线 反馈信号的布线在信号布线过程中也需要特别注意。反馈信号如Figure 7-a左侧的电路图所示,输出电压经…

vue使用JavaScript运算符

第一:加法运算符{{变量+n}}<p>num参与运算{{num+12}}</p>let vm = new Vue({el : "#app",data : {num: 101,isOK: true,message: 你好,lan: Java,id: 1001,}})第二:三目运算符<!-- 三目运算符 --><p>三目运算符:{{isOK==2 ? 真: 假}}<…

Golang - goto语句

用途 可以无条件地转移到过程中指定的行。该语句通常与条件语句配合使用,可用来实现条件转移,构成循环,跳出循环体等功能,但在结构化程序设计中一般不主张使用goto语句,以免造成程序流程的混乱,使理解和调试程序都产生困难。 语法goto label; ... label: statement;注…

Day 42 动态规划 Part09

188. 买卖股票的最佳时机 IV 做完上一道题后再看就简单许多了。股票问题的重点就在于两点:找到所有的状态 状态如何转移对于本题,一共包含2*k种状态(第1,2...k次持有,第1,2...k次卖出)。状态间如何转移呢?见下图class Solution {public int maxProfit(int k, int[] pri…

【Python使用】嘿马python基础入门全体系教程第1篇:目标,计算机组成【附代码文档】

本教程的知识点为:计算机组成 什么是计算机? 计算机是由什么组成的? 1. 硬件系统: 2. 软件系统: 目标 运算符的分类 1. 算数运算符 2. 赋值运算符 3. 复合赋值运算符 判断语句和循环语句 if嵌套 1. if嵌套的格式 2. if嵌套的应用 if嵌套执行流程 容器:字符串、列表、元组…

Avnet ZUBoard 1CG开发板上手—深度学习新选择

本文主要介绍了Avnet ZUBoard 1CG开发板的特性、架构、硬件单元等概念,并对如何使用以太网接口和串口连接开发板进行基本介绍,同时辅以两个应用例程演示其功能。Avnet ZUBoard 1CG 开发板上手—深度学习新选择 摘要 本文主要介绍了 Avnet ZUBoard 1CG 开发板的特性、架构、硬…

5-用PyTorch实现线性回归

下面是损失函数下面是优化器 下面通过model.parameters()可以获得model中所有的参数点击查看代码 import torch from torch import devicex_data = torch.tensor([[1.0], [2.0], [3.0]]) y_data = torch.tensor([[2.0], [4.0], [6.0]])class LinearModel(torch.nn.Module):def …

一文搞懂应用架构的3个核心概念

如果你是一名业务开发,你可能要说,我整天就是做CRUD(增删改查),哪里需要了解什么应用架构设计? 经常有人说,程序员 35 岁之后很容易陷入瓶颈,被行业淘汰,我觉得原因其实就在此。 有些朋友在写代码的时候,可能没有太多考虑非功能性的需求、扩展性,只是完成功能,觉得…

Openwrt 配置 PS5 端口转发

ps5 端口转发前言前阵子申请了公网IP通过了想远程串流玩PS5 通过Socat配置端口转发后仅桌面端Chiaki可以远程串流PS5 改用Openwrt的防火墙转发使PSPlay+Chiaki都可串流环境Openwrt 22.03.6 状态 > 概览 > 固件版本步骤打开 网络 > 防火墙 > 端口转发 点击 添加 配置…