(论文阅读31/100)Stacked hourglass networks for human pose estimation

31.文献阅读笔记

简介

题目

Stacked hourglass networks for human pose estimation

作者

Alejandro Newell, Kaiyu Yang, and Jia Deng, ECCV, 2016.

原文链接

https://arxiv.org/pdf/1603.06937.pdf

关键词

Human Pose Estimation

研究问题

CNN运用于Human Pose Estimation,

重复自底向上、自顶向下推理。

早期的工作:使用稳健的图像特征(局部解释)和复杂的结构化预测(推断全局一致的姿态)来解决这些困难。

现在:普遍采用卷积神经网络作为其主要构建模块,很大程度上取代了手工制作的特征和图形模型。

任务:从RGB图像中对单个人的姿态进行关键点定位。

研究方法

“stacked hourglass” network:

该网络在图像的所有尺度上捕获和整合信息,基于可视化的池化和后续上采样的步骤来得到网络的最终输出。

不同于以前的设计,主要是在其更对称的拓扑结构。

连续地将多个沙漏模块端到端地放在一起,在单个沙漏上进行扩展。这允许跨尺度自下而上、自上而下的重复推断。结合中间监督的使用,重复的双向推理对网络的最终性能至关重要。

有些方法通过使用单独的管道来解决这个问题,即在多个分辨率下独立处理图像,然后在网络中合并特征。

作者选择使用skip layers的单一管道,以保留每个分辨率下的空间信息。

网络的输出是一组热图,对于给定的热图,网络会预测每个像素上出现关节的概率。

以 256x256 的全输入分辨率运行需要大量 GPU 内存,因此沙漏的最高分辨率(也就是最终输出分辨率)为 64x64。这并不影响网络生成精确联合预测的能力。整个网络从一个步长为 2 的 7x7 卷积层开始,然后是一个残差模块和一轮最大池化,将分辨率从 256 降到 64。

在图 3 所示的沙漏之前有两个残差模块。在整个沙漏过程中,所有残差模块都会输出 256 个特征。

使用 1x1 卷积来减少步骤是有价值的,使用连续的较小滤波器来捕捉更大的空间背景也是有好处的。例如,可以用两个独立的 3x3 滤波器代替 5x5 滤波器。

将一个沙漏的输出作为下一个沙漏的输入。

通过额外的 1x1 卷积将中间预测映射到更多通道,从而将中间预测重新整合到特征空间中。这些特征与前一个沙漏阶段输出的特征一起被添加回沙漏的中间特征中(如图 4 所示)。由此产生的输出可直接作为下一个沙漏模块的输入,从而生成另一组预测结果。在最终的网络设计中,使用了八个沙漏。值得注意的是,沙漏模块之间并不共享权重,而且所有沙漏的预测结果都使用相同的ground truth,因此会产生损失。

网络在确定哪个人值得注释时,无法获得足够的信息。为此,我们对网络进行了训练,使其只对位于正中心的人进行注释。

研究结论

在MPII上,所有关节的平均精度都有超过2 %的提高,对于更困难的关节,如膝盖和脚踝,平均精度提高了4 - 5 %

创新不足

当图像中有多个人物时,一致性问题就变得尤为重要。网络必须决定对谁进行注释,唯一信号就是目标人物的居中和缩放,相信输入会足够清晰,便于解析。遗憾的是,当人物距离很近甚至重叠时,这偶尔会导致模糊不清的情况,

额外知识

图像处理:

自下而上:高分辨率到低分辨率

自上而下:低分辨率到高分辨率

上:低分辨率 提供更多语义信息,具有更大的视野

下:高分辨率 有更多像素,提供更多细节信息

全卷积网络和整体嵌套架构,自下而上处理能力都很强(即提取语义信息),但是自上而下处理能力都很弱,只能对多尺度预测进行合并。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/175546.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HelloWorld - 从Houdini导出HDA到UE5

1.配置插件 在Houdini安装目录下找到对应版本引擎的插件,例如这里是Houdini19对应UE5.2的版本,我们就要保证先下载好UE5.2: 将Houdini插件粘贴到UE安装目录的Plugins文件夹下: 目前插件配置完成,打开UE会自动启用插…

python数据处理作业11:建一个5*3的随机数组和一个3*2的数组,其元素为1,2,3,4,5,6,求两矩阵的积

每日小语 打碎的杯子,烫伤的手,对菩萨是堪忍,因为他在里面得悟甚深之法,心生欢喜。 可是对一般人来说,一生何止打破千百个杯子?何止烫伤过千百次手?他只是痛苦地忍受,只记得下次要…

FPGA UDP RGMII 千兆以太网(4)ARP ICMP UDP

1 以太网帧 1.1 1以太网帧格式 下图为以太网的帧格式: 前导码(Preamble):8 字节,连续 7 个 8’h55 加 1 个 8’hd5,表示一个帧的开始,用于双方 设备数据的同步。 目的 MAC 地址:6 字节,存放目的设备的物理地址,即 MAC 地址 源 MAC 地址:6 字节,存放发送端设备的…

Xilinx Kintex7中端FPGA解码MIPI视频,基于MIPI CSI-2 RX Subsystem架构实现,提供工程源码和技术支持

目录 1、前言免责声明 2、我这里已有的 MIPI 编解码方案3、本 MIPI CSI2 模块性能及其优缺点4、详细设计方案设计原理框图OV5640及其配置权电阻硬件方案MIPI CSI-2 RX SubsystemSensor Demosaic图像格式转换Gammer LUT伽马校正VDMA图像缓存AXI4-Stream toVideo OutHDMI输出 5、…

AK F.*ing leetcode 流浪计划之半平面求交

欢迎关注更多精彩 关注我,学习常用算法与数据结构,一题多解,降维打击。 本期话题:半平面求交 背景知识 学习资料 视频讲解 https://www.bilibili.com/video/BV1jL411C7Ct/?spm_id_from333.1007.top_right_bar_window_history…

【万字长文】Python 日志记录器logging 百科全书 之 日志过滤

Python 日志记录器logging 百科全书 之 日志过滤 前言 在Python的logging模块中,日志过滤器(Filter)用于提供更细粒度的日志控制。通过过滤器,我们可以决定哪些日志记录应该被输出,哪些应该被忽略。这对于复杂的应用…

c语言从入门到实战——基于指针的数组与指针数组

基于指针的数组与指针数组 前言1. 数组名的理解2. 使用指针访问数组3. 一维数组传参的本质4. 冒泡排序5. 二级指针6. 指针数组7. 指针数组模拟二维数组 前言 指针的数组是指数组中的元素都是指针类型,它们指向某种数据类型的变量。 1. 数组名的理解 我们在使用指针…

ArkUI实战,深入浅出OpenHarmony应用开发

前言 | 《ArkUI实战》《ArkUI实战》深入浅出的介绍了OpenHarmony开发框架ArkUI组件的使用和应用开发流程,是OpenHarmony应用开发的必备电子书。https://www.arkui.club/ OpenHarmony开发资料归档__南先森-Laval社区OpenHarmony入门看这里 _南先森 Laval社区https:/…

DAY54 392.判断子序列 + 115.不同的子序列

392.判断子序列 题目要求:给定字符串 s 和 t ,判断 s 是否为 t 的子序列。 字符串的一个子序列是原始字符串删除一些(也可以不删除)字符而不改变剩余字符相对位置形成的新字符串。(例如,"ace"是…

【开发工具】gitee还不用会?我直接拿捏 >_>

🌈键盘敲烂,年薪30万🌈 目录 git的一些前置操作 如何获取本地仓库 本地仓库的操作 远程仓库操作 合并两个仓库(通用方法) 从远程仓库拉取文件报错 fatal:refusing to merge unrelated histories 分支操作 注意&…

炒现货黄金怎么做?挖掘黄金的投资机会

黄金一直以来都是备受投资者追捧的避险资产,其价值和潜力是无法忽视的。而炒现货黄金作为一种快速获取收益的投资方式,备受关注。那么,如何在炒现货黄金中找到投资机会呢?为您详细解析,简单易懂,帮助您开启…

【2013年数据结构真题】

highlight: a11y-dark 41题 王道解析: 算法的策略是从前向后扫描数组元素,标记出一个可能成为主元素的元素Num 。然后重新计数,确认Num是否是主元素。算法可分为以下两步: 选取候选的主元素:依次扫描所给数组中的每个…