RTMPose

RTMPose

  • 1. 人体姿态估计简介
  • 2. RTMPose
    • 2.1 网络结构
    • 2.2 基于SimCC的优化路线
      • 2.2.1 SimCC:
      • 2.2.2 RTMPose

1. 人体姿态估计简介

  • 多人姿态估计框架包括5个方面:
    • paradigm:范式
      • top-down:
        • 用于人数不多于6人的场景
        • 使用现成的检测器提供边界框,然后将人体裁剪为统一的尺度进行姿势估计
        • 人体检测器和位姿估计器可输入较小的分辨率
      • bottom-up:
        • 自下而上的范式被认为适合人群场景,因为随着人数的增加,计算成本保持稳定;
        • 通常需要较大的输入分辨率来处理不同的人的尺度,这使得协调准确性和推理速度变得具有挑战性
    • backbone network:骨干网络
    • localization method:定位算法
      • 坐标回归(coordinate regression)
      • 热图回归(heatmap regression)
      • 坐标分类(coordinate classification)
        • 子像素箱分类(将关键点预测看作为分别针对水平和垂直坐标的子像素箱的分类)
        • 代表算法:SimCC
        • 摆脱了对高分辨率热图的依赖,因此可以实现非常紧凑的架构,既不需要高分辨率中间表示,也不需要昂贵的上采样层
        • 展平最终的特征图进行分类,不需要全局池化,从而避免了空间信息的丢失
        • 通过亚像素尺度的坐标分类可以有效缓解量化误差,无需额外的优化后处理
    • training strategy:训练策略
    • deployment:部署推理

2. RTMPose

2.1 网络结构

在这里插入图片描述

  • GAU:Gated Attention Unit (门控注意力单元)
  • RTMPose的整体架构包含:
    • 骨干网络
    • 一个卷积层
    • 一个全连接层
    • 一个用于细化K个关键点表示的门控注意力单元
    • 将二维姿态估计视为x轴和y轴坐标的两个分类任务,以预测关键点的水平和垂直位置

2.2 基于SimCC的优化路线

在这里插入图片描述

2.2.1 SimCC:

  • 核心思想:将水平轴和垂直轴划分为等宽编号的 bin,并将连续坐标离散化为整数 bin 标签。 然后训练模型来预测关键点所在的 bin。 通过使用大量的 bin,可以将量化误差降低到子像素级别。
  • 结构简单:由于这种新颖的公式,SimCC 具有非常简单的结构,使用 1 × 1 卷积层将主干提取的特征转换为矢量化关键点表示,并使用两个全连接层分别执行分类
  • 平滑策略:受传统分类任务中标签平滑的启发[53],SimCC提出了一种高斯标签平滑策略,用以ground-truth bin为中心的高斯分布式软标签代替one-hot标签,该策略在模型训练中融合了归纳偏差,带来了 关于显着的性能改进。

2.2.2 RTMPose

  • 基于SimCC,做了以下改进 (SimCC*)
    • 删除了上采样层
    • 使用CSPNext-m 替换 ResNet-50

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/3010.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android Studio 配置 DCL 单例脚本

DCL(Double-Checked Locking)单例是一种用于创建单例对象的设计模式。单例模式是一种创建型模式,用于确保一个类只有一个实例,并提供全局访问点。 DCL单例的核心思想是使用双重检查来保证只有在需要时才对实例进行实例化。它结合…

Nginx服务器的六个修改小实验

一、Nginx虚拟主机配置 1.基于域名 (1)为虚拟主机提供域名解析 配置DNS 修改/etc/hosts文件 (2)为虚拟主机准备网页文档 #创建网页目录 mkdir -p /var/www/html/abc mkdir -p /var/www/html/def ​ #编写简易首页html文件 ec…

MySQL 字符集与比较规则

字符集与比较规则 一. 字符集相关操作1. 查看字符集1.1 查看数据库当前字符集配置1.2 查看某数据库/数据表字符集 2. 修改字符集2.1 全局修改字符集2.2 修改已有库表字符集 3. 字符集级别二. 比较规则1.1 后缀表示含义1.2 查看指定数据集比较规则1.3 查看/修改数据库/表比较规则…

ffmpeg+nginx-rtmp转发视频流

本篇博客最早发布于实验室公共博客,但已无人维护,现迁移至个人博客 nginx与nginx-rtmp-module安装 画了好几天图,实在有些乏力,找点有意思的事情做做 觉得视频流传输挺有意思,B站找了些视频,但感觉有些大…

python爬虫—selenium获取csdn质量分并用echarts可视化分析

文章目录 ⭐前言⭐selenium💖 获取所有的文章url💖 根据url查询分数💖 inscode结合echarts展示结束 ⭐前言 大家好,我是yma16,本文分享关于python自动化获取个人博客质量分并可视化。 该系列文章: python爬…

机器学习笔记 - 结合深度学习的基于内容的图像实例检索 利用现成的DCNN模型进行检索

一、简述 上一篇,基于内容的图像实例检索综述。 https://mp.csdn.net/mp_blog/creation/editor/131415155https://mp.csdn.net/mp_blog/creation/editor/131415155 一种方案是,为分类任务而进行大规模训练的DCNN直接充当图像检索任务的现成特征检测器,也就是说,可以…

CVPR 23 | 高分辨率缺陷异常定位新范式:PyramidFlow

来源:投稿 作者:橡皮 编辑:学姐 论文链接:https://arxiv.org/abs/2303.02595 论文代码:暂未发布 0. 背景 由于复杂的工业制造过程中的不可控因素,不可避免地会给产品带来不可预见的缺陷。由于人类视觉系…

NFTScan 与 Sender Wallet 达成合作伙伴,双方在多链 NFT 数据方面展开合作!

近日,NFT 数据基础设施 NFTScan 与 Web3 钱包 Sender Wallet 达成合作伙伴关系,成为其官方 NFT 数据供应商。NFTScan 将为 Sender Wallet 的 NFT 部分提供专业的多链 NFT 数据支持,确保用户可以跨多个区块链获得全面和实时的 NFT 数据。 Sen…

数据结构和算法-2023.06.29

斐波那契数列 初衷💁🏻 说来也是惭愧,入行这么久了,一直没有仔细去思考为什么去做这个,之前一直游想法去好好学学数据结构和算法,一直苦于是重点学习Docker、K8S、JVM,多线程,或者是…

14.RocketMQ之高可用性机制

1.2 高可用性机制 RocketMQ分布式集群是通过Master和Slave的配合达到高可用性的。 Master和Slave的区别:在Broker的配置文件中,参数 brokerId的值为0表明这个Broker是Master,大于0表明这个Broker是 Slave,同时brokerRole参数也会说…

Flutter iOS 打包 问题处理

日常问题收集: remark: Incremental compilation has been disabled: is not currently compatible with embedding LLVM IR bitcode a. 在Build Settings中搜索Enable Bitcode-> 设置No b. Project-> Targets-> Build Settings-> Custom Compiler Flag…

【Vue3】CustomImport 导入文件组件

1. 效果图 2. 组件完整代码 <template><div class="custom-import-warpper"><el-dialog v-model