人体姿态估计技术的理解(Human Pose Estimination)

本人毕设题目是人体姿态估计技术的相关课题,本人按照自己对人体姿态估计技术的学习和理解进行论述,如有不足,请大家指正!!!

首先讨论一个问题:什么是姿态估计?

“姿势估计?……姿势这个词对不同的人可能有不同的含义,但我们不是在讨论阿诺德的经典作品、奥林匹亚或选美表演。那么,姿势估计到底是什么呢?那么,让我们深入探讨一下这个话题。

姿态估计在计算机视觉领域引起了极大的关注。人们越来越感兴趣的是能够使用计算机视觉技术实时识别和跟踪人或物体的运动,这在各行各业提供了很多有用性。在不断发展的先进技术时代,姿态估计可以成为体育生物力学、动画、游戏、机器人、医疗康复和监控领域的
有效工具。
本质上,姿势估计是根据一个人在图像或视频中的身体部位和关节位置来预测不同的姿势。例如,我们可以在做深蹲的时候自动检测关节、手臂、臀部和脊柱的位置。现在,我们中的一些人可能想知道它是如何有用的?然而,考虑一个运动员受伤后恢复或进行力量训练的例子;姿势估计可以帮助运动分析人员分析深蹲从起始位置到结束位置的关键点。因此,这些分析人员可以纠正姿势,帮助预防训练损伤。
图 1:下蹲时的人体姿势估计
在与人类合作时,姿态分析是通过确定各种身体关节来进行的。例如,它可以通过某人肘关节的位置或膝关节的位置来确定。这种形式的姿态检测属于人体姿态估计的范畴。姿态估计模型以处理良好的图像或视频的形式提供输入。该模型根据输入图像中的信息提供关于不同关键点的输出。一般来说,关键点被提供了一个 ID 和一个置信度分数,决定了一个关键点存在于给定输入的特定位置的概率。现在,如果我们回忆一下之前运动员做深蹲的图像,我们可以分配各种 id,例如:
在这里插入图片描述
相反,与人类受试者不同的是,对于主要是刚性的物体,可以进行姿态估计;因此,它们属于刚性姿态估计的范畴。

2D 和 3D 方面的姿态估计

姿态估计可以通过两种方式进行,即 2D 和 3D。也许,我们中的一些人将 2D 和 3D 的这些概念与动画领域联系起来。然而,2D 方面的姿态估计与基于像素值从图像中预测关键点有关。因此,大多数 2D 人体姿态估计技术都实现了特征提取方法,以提供人体的适当关键点。类似地,3D 姿态估计与从图像和视频中预测特定的人或物体的空间位置有关。随着深度学习的出现,这些模型的性能有了显著的提高,但它们的使用更加复杂,因为数据集需要与适当的人体 3D 结构信息(包括背景和照明条件)进行整理。此外,还有新的方法用于与检测一个人或物体或跟踪多个人和物体相关的单姿态和多姿态估计。

姿态估计模型

各种研究人员提出了不同的姿态、估计模型。在深入探讨之前,有必要了解一下,人体姿态估计模型基本上有三种类型:

  1. 运动的
  2. 平面的
  3. 体积的
  4. 运动学模型可用于 2D 和 3D 姿态估计。本质上,这个模型侧重于不同的关节和肢体位置,以提供人体的结构信息。因此,这样的模型有效地识别了人体各部位之间的各种关系。然而,运动学模型在表示基于纹理或形状的信息时几乎没有限制。接下来,我们讨论强调 2D 姿态估计的平面模型。理想情况下,人体部位用矩形表示,以提供近似人
    体轮廓。最后,体姿态估计模型专注于 3D 姿态估计。这些是端到端的深度学习模型,使用包含全身扫描高分辨率数据的复杂数据集进行训练,以导出各种形状和姿态的人体网格。
    在这里插入图片描述
    虽然不可能涵盖广泛的模型,但我们将讨论近年来用不同的方法提出的一些最可靠和鲁棒的模型。

让我们来看看 2022 年正在使用的一些流行的姿态估计。

  1. 开放姿态
    开放姿势是卡内基梅隆大学开发的第一个实时后估计模型。该模型主要专注于在实时场景中检测多人的手、脸、脚等人体关键点。一般来说,图像是在卷积神经网络(CNN)的帮助下处理的,以生成特定输入的特征映射。进一步,通过 CNN 管道的不同阶段对特征图进行处理,得到置信度图和亲和场。
    ![2](https://img-blog.csdnimg.cn/1bd1f87419be49ada6b42154ef00c859.png)

  2. 移动网络
    移动网络是由谷歌研究使用 TensorFlow.js 开发的。研究人员声称,该模型具有超快、高精度的特点,能够检测人体的 17 个关键关键点。然而,该模型有两个版本,即“闪电”,针对的是对延迟要求低的应用。另一方面,Thunder 版本是为专注于实现更高精度的应用而设计的。此外,这两个模型都能够进行实时检测,并已被证明可以有效地检测实时健身、体育或基于医疗保健的应用。
    **

  3. PoseNet
    PoseNet 是另一个流行的姿势检测模型。该模型可以实时检测姿态,并高效地用于人体的单姿态和多姿态检测。PoseNet 是一个深度学习模型,它使用 TensorFlow 来检测不同的身体部位,并通过连接其他关键点提供全面的骨骼信息。此外,PoseNet 还为人体从眼睛到脚踝的各个部位提供了 17 个关键点。生成一个置信度分数,以确定模型从图像中识别特定关键点的精准程度,从而识别模型的准确性。所有关于测试和配置的信息都可以通过 GitHub 访问。
    在这里插入图片描述

  4. DCpose
    DCPose 代表深度双连续网络,开发用于从多帧检测人体姿势。该框架利用深度学习技术来克服多帧人体姿态估计中的关键挑战,如运动模糊、散焦视频,以及由于对每个视频帧的依赖而发生的遮挡。此外,这些视频帧之间提供了各种时间参考,以促进准确的关键点检测。进一步,时间合并充当编码器,以实现更广泛的搜索范围,而残差融合模块负责计算不同方向的残差。
    在这里插入图片描述

  5. Densepose
    DensePose 是一个人体姿态估计器,旨在从关于人体 3D 表面的 RGB 图像中映射各种基于人体的像素。该模型可以实现单姿态和多姿态估计的必要性。DensePose 以包含图像到表面注释信息的大规模数据集的形式使用地面真相。此外,提出了一种循环神经网络(RCNN),能够以每秒多帧的速度回归每个人体受试者之间不同身体部位相关的 UV 坐标。
    在这里插入图片描述

  6. HigherHRnet
    HigherHRNet 是一种流行的自下而上的姿势估计模型,旨在解决由于比例差异而在预测矮个子的正确姿势时遇到的一些挑战。特征金字塔是必不可少的组成部分,它允许所提出的方法从尺度感知表示中学习,帮助估计精确的关键点,以确定矮个子的姿态估计变化。特征金字塔主要包括由 HRNet 模型生成的特征图输出,包括由转置卷积产生的高分辨率输出。此外,作者还发现,对于中等规模的人来说,该模型比现有的一些自下而上的方法的AP高出2.5%。此外,该模型在从拥挤的场景中估计姿态时也能有效地表现。
    在这里插入图片描述

结论

姿态检测是计算机视觉领域中一个不断发展的研究领域。从提供现实生活中的应用程序到在云端服务器上运行的应用程序,姿态估计在业界获得了极大的吸引力。事实上,先进的姿态估计模型更快、更小,才能在移动设备上发挥作用,这提供了充足的机会。这些模型可以实时有效地为体育分析师服务,甚至在医疗康复、私人教练和逼真的游戏中都是可靠的。虽然已经开发了各种应用,但每一种新模型都旨在改善之前模型的一些局限性。
然而,随着深度学习和多种开源技术的使用,各种产品都符合要求,可以改变未来人体姿态估计的执行方式。因此,令人兴奋的前景已经打开,使有效跨行业实现最先进的姿态检测应用成为可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/786.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++基础-命名空间-缺省参数-函数重载-引用-内联-auto-范围for

C基础: 1. 命名空间命名空间如何定义命名空间如何使用 2.缺省参数2.1 缺省参数分类2.1.1全缺省参数2.1.2 半缺省参数 3. 函数重载4. 引用4.1 常引用4.2 引用使用场景4.2.1 做参数4.2.2 做返回值4.2.3 传值和传引用效率分析 4.3 引用和指针的区别4.4 指针和引用总结 …

ubuntu18修改源

1. 查看当前系统的源 系统的源 2. 将sources.list备份,sources-bak.list是备份文件 3. 选择要换的源 # 默认注释了源码镜像以提高 apt update 速度,如有需要可自行取消注释 deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ jammy main restricted un…

kettle源码远程debug调试

一、kettle启动时指定debug端口号 windows下,修改bat执行文件,同理 linux修改sh执行文件 在java执行参数的末尾添加debug参数 address为debug端口 -Xdebug -Xnoagent -Djava.compilerNONE -Xrunjdwp:transportdt_socket,servery,suspendn,address9080然…

6 应用层-6.1【实验】【计算机网络】

6 应用层-6.1【实验】【计算机网络】 前言推荐6 应用层6.1 Web服务与FTP服务配置0 搭建拓扑图1 Web演示2 FTP演示6.1.1实验章节测验 最后 前言 2023-6-25 14:35:53 以下内容源自《创作模板三》 仅供学习交流使用 推荐 4端到端协议-4.3【实验】【计算机网络】 6 应用层 6.…

前端Vue自定义发送短信验证码弹框popup 实现剩余秒数计数 重发短信验证码

前端Vue自定义发送短信验证码弹框popup 实现剩余秒数计数 重发短信验证码&#xff0c; 请访问uni-app插件市场地址&#xff1a;https://ext.dcloud.net.cn/plugin?id13207 效果图如下&#xff1a; 实现代码如下: # cc-codeDialog #### 使用方法 使用方法 <!-- show:是…

爬虫框架和库有多重要?

爬虫框架和库在网络数据提取和分析中非常重它们为开发人员提供了工具和功能&#xff0c;使他们能够更轻松地从互联网上抓取数据。爬虫框架和库通常提供了高效的网络请求、数据解析和存储机制&#xff0c;简化了爬取过程。 使用爬虫框架库有以下几个重要优势&#xff1a; 快速开…

Web服务器群集:Nginx网页及安全优化

目录 一、理论 1.Nginx网页优化 2.Nginx安全优化 3.Nginx日志分割 二、实验 1.网页压缩 2.网页缓存 3.连接超时设置 4.并发设置 5.隐藏版本信息 6.脚本实现每月1号进行日志分割 7.防盗链 三、总结 一、理论 1.Nginx网页优化 &#xff08;1&#xff09;概述 在企…

C++不知算法系列之计数排序算法的计数之巧

1. 前言 计数排序是较简单的排序算法&#xff0c;其基本思想是利用数组索引号有序的原理。 如对如下的原始数组中的数据(元素)排序&#xff1a; //原始数组 int nums[5]{9,1,7,6,8};使用计数排序的基本思路如下&#xff1a; 创建一个排序数组。数组的大小由原始数组的最大值…

vue3 element-plus 暗黑模式(主题切换)简易版

暗黑模式是说明 暗黑模式是指在应用程序或操作系统中使用暗色背景和浅色文本的界面设计。与传统的亮色模式相比&#xff0c;暗黑模式具有以下特点&#xff1a; 减少眼部疲劳&#xff1a;使用暗色背景可以减少屏幕发出的蓝光&#xff0c;减轻长时间使用电子设备对眼睛的疲劳程度…

python机器学习—— 数据预处理 算法初步

目录 数据预处理1.获取数据2.处理缺失值3.划分数据集4.数据预处理和PCA降维5.算法实现&#xff1a;估计器 数据预处理 1.获取数据 from sklearn.datasets import load_iris liload_iris() print("获取特征值") print(li.data) print("目标值",li.target)#…

Spring Boot 统一功能处理

✏️作者&#xff1a;银河罐头 &#x1f4cb;系列专栏&#xff1a;JavaEE &#x1f332;“种一棵树最好的时间是十年前&#xff0c;其次是现在” 目录 ⽤户登录权限效验Spring Boot 拦截器自定义拦截器将自定义拦截器加入到系统配置 拦截器实现原理 统一异常处理创建一个异常处…

LLM - 搭建 ProteinGPT 结合蛋白质结构 PDB 知识的行业 ChatGPT 系统

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://blog.csdn.net/caroline_wendy/article/details/131403263 论文&#xff1a;ProteinChat: Towards Enabling ChatGPT-Like Capabilities on Protein 3D Structures 工程&#xff1a;ht…