[Paper Reading] Multiple View Geometry Transformers for 3D Human Pose Estimation-编程知识

[Paper Reading] Multiple View Geometry Transformers for 3D Human Pose Estimation

news/2025/2/21 3:48:10/文章来源:https://www.cnblogs.com/fariver/p/18357747

Multiple View Geometry Transformers for 3D Human Pose Estimation

link
时间：CVPR2024
机构：University of Toronto && Southeast University && Microsoft Research Asia

TL;DR

提出一种基于Transformer端到端3D Human Pose Estimation方法MVGFormer，核心模块是geometry与appearance模块。前者是无参可微的，泛化更友好；后者是可学习的，对提高精度更友好。效果SOTA。

Method

Query

Query 𝑸 = (𝑭, 𝑷)两部分构成，其中，appearance项\(F_k ∈ R_{J×L}\)，geometry项\(P_k ∈ R_{J×3}\)。

Decoder

Appearance Module

输入：多目features、Query
输出：

Attention Features：3D Poses投影到多目局部特征进行attention
2D Poses：上一轮3D Poses投影2D pose作为anchor，使用attention features预测residual。两者叠加。
Condidence：2D Pose点的置信度

Geometry Module

核心操作就是可微的三角化
输入：Appearance Module的输出
输出：𝑭, 𝑷
下图是在Appearance项上增加一个MLP预测instance的score，从而过滤掉一些低质量的query减少计算量。

Loss

通过距离来匹配GT与Pred之间的Match关系，从而计算2D与3D误差的Loss。

实验代码：https://github.com/XunshanMan/MVGFormer/tree/master
效果可视化：https://github.com/XunshanMan/MVGFormer/blob/master/figures/cmu_demo.gif

Experiment

各种维度的Ablation

总结与发散

1.看效果视频遮挡方面效果还可以(可能是视角跨度比较大)
2.三角化、提取Attention Feature在端侧实际部署可能有问题

资料查询

折叠Title

FromChatGPT(提示词：XXX)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/783469.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！