【菜鸡读论文】MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

【菜鸡读论文】MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection在这里插入图片描述

大家好哇!是谁美滋滋地准备开始放暑假了!没错!你没有听错!放暑假!
谁能想到都已经立秋了,竟然有人还在实验室,还没有放暑假!咱就是说,真的还有人比我更晚放暑假吗!
哈哈,不过不管怎么说,总算是可以回家啦!这次要好好回家休息一下。因为是周五了,今年的最后一个工作日,一起来读一篇论文吧!最近好久没有读论文了,之前读了一些论文,但因为各种事情(最重要的原因是我真的太懒了),就没有记录下来,现在还是要好好记录一下。
在这里插入图片描述

这是2022年CVPR的一篇文章做Action Detection,它提出使用一个多尺度的时域ConvTransformer:MS-TCT。首先我们来看一下提出的背景。

背景

在这里插入图片描述

  1. 动作检测数据包括复杂的时间关系,包括复合或共同发生的行动。为了在这些复杂的设置中检测行动,**有效地捕捉短期和长期的事件信息是至关重要的。**例如,如上图所示,“taking food”这个行为可以从“打开冰箱”和“制作三明治”中获得上下文信息,这对应于短期和长期的术语行动依赖关系。
  2. 为了对未修剪视频中的时间关系进行建模,之前的多种方法使用了一维时间卷积。然而,由于核大小的限制,基于卷积的方法只能直接访问局部信息。注意机制可以在视频的每个时间段(即时间标记)之间建议一对一的全局关系,以检测高度相关和复合动作。
  3. 为此,我们提出一种MS-TCT。该网络由三个主要组件组成:(1)时间编码器模块探索全局和局部时间关系在多个时间分辨率,(2)时间尺度混合器模块有效地融合多尺度特性,创建一个统一的特征表示,(3)分类模块学习每个动作实例在时间的中心相对位置,并预测帧级分类分数。

Multi-Scale Temporal ConvTransformer

如下图所示,MS-TCT包括(1)一个视觉编码器,它编码了一个初步的视频表示,(2)一个时间编码器,在不同时间尺度上的时间关系,(3)一个时间尺度混合器,被称为TS混合器,它结合了多尺度的时间表示,以及(4)一个预测类别概率的分类模块。
在这里插入图片描述

Visual Encoder

我们使用I3D backbone对视频进行编码。每个视频被分成T个不重叠的片段,每个片段包含8帧。这样的RGB帧作为一个输入段被输入到I3D网络中。每个段级特性(I3D的输出)都可以被视为一个时间步长的token。我们沿时间轴堆叠标记,形成一个T*D视频标记表示,并输入时间编码器。

在这里插入图片描述

Temporal Encoder

(1)使用1d时间卷积层,关注邻近的信息但忽略了直接长期时间依赖视频,或(2)transformer层全局编码一对一的交互,而忽略了局部语义;我们的时间编码器通过探索局部和全局上下文信息以交替的方法受益于两个方法的好处。
在这里插入图片描述
时间编码器遵循具有N个阶段的层次结构:早期阶段学习具有更多时间标记的细粒度动作表示,而后期阶段学习具有更少标记的粗表示。每个阶段对应于一个语义级别(即时间分辨率),并包括一个时间合并块和B个全局-局部关系块

在这里插入图片描述
其中:
Temporal Merging Block 它在增加特征维度的同时减少了token的数量(即时间分辨率)。这一步可以看作是相邻token之间的一个加权池化操作。在实践中,我们使用一个时间卷积层(核大小为k,步幅一般为2)来将token的数量减半,并扩展通道大小。

Global-Local Relational Block 在全局关系块中,我们使用标准的多头自注意层来建模长期的动作依赖关系,即全局上下文关系。在局部关系块中,我们使用一个时间卷积层(核大小为k),通过注入来自邻近token的上下文信息,即局部归纳偏差,来增强token表示。这增强了每个token在建模与一个动作实例对应的短期时间信息时的时间一致性。

Temporal Scale Mixer

为了预测动作的概率,我们的分类模块需要在原始的时间长度上进行预测,作为网络的输入。因此,我们需要在时间维度上插值标记,这是通过执行上采样和线性投影步骤来实现的。
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

Classification Module

MS-TCT是通过联合学习两个分类任务来实现的。在这项工作中,我们引入了一个新的分类分支来学习动作实例的热图。这个热图不同于地面真是标签,因为它根据动作中心和持续时间而变化。使用这种热图表示的目的是在MS-TCT的学习标记中编码时间相对定位。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

与之前的工作类似,我们使用另一个分支来执行通常的多标签分类。热图分支鼓励模型学习实例中心在视频token相对位置。因此,分类分支也可以从这些位置信息中获益,从而做出更好的预测。

在这里插入图片描述

结果

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/72467.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

优测云服务平台|【压力测试功能升级】轻松完成压测任务

一、本次升级主要功能如下: 1.多份报告对比查看测试结果 2.报告新增多种下载格式 Word格式Excel格式 3.新增多种编排复杂场景的控制器 漏斗控制器并行控制器事务控制器仅一次控制器分组控制器集合点 4.新增概览页面,包含多种统计维度 二、报告对比…

中远麒麟堡垒机 SQL注入漏洞复现

0x01 产品简介 中远麒麟依托自身强大的研发能力,丰富的行业经验,自主研发了新一代软硬件一体化统一安全运维平台一-iAudit 统一安全运维平台。该产品支持对企业运维人员在运维过程中进行统一身份认证、统一授权、统一审计、统一监控,消除了传统运维过程中…

【自用】云服务器 使用 docker 搭建 HomeAssistant + MQTT 物联网平台

总览 1.搭建流程概述 2.准备工作 3.开始搭建! 4.总结 如果想看 ESP32 或其他使用 MicroPython 编程的单片机如何连接到该云服务器,实现 HomeAssistant 控制 单片机的内容,请看我这篇博客的下一篇。 一、搭建流程概述 0.总体流程 我们需要…

μCOS-Ⅲ_简介

μCOS-Ⅲ简介 文章目录 μCOS-Ⅲ简介前言一、什么是 C/OS-III?二、C/OS-III的特点三、C/OS-III的版本和参考资料1、C/OS-III版本2、C/OS-III源码获取3、C/OS-III参考资料 四、C/OS-III源码简介总结 前言 μcos-III是一个可以基于ROM运行的、可裁剪的、抢占式、实时…

leetcode 415.字符串相加

⭐️ 题目描述 🌟 leetcode链接:https://leetcode.cn/problems/add-strings/description/ ps: 从两个字符串的末尾开始遍历,依次相加,若大于等于 10 则使用一个变量记录进位,遍历的时候若两个字符串其中一…

k8s简介、虚拟机快速搭建k8s集群、集群管理方式及K8S工作原理和组件介绍

文章目录 1、k8s简介1.1、部署方式的变迁1.2、定义1.3、Kubernetes提供的功能 2、虚拟机快速搭建k8s集群2.1、虚拟机配置(centos7 2G内存2个处理器)2.2、基础环境准备2.3、docker安装(易踩坑)2.4、安装k8s组件2.5、master节点部署…

一百六十、Kettle——Linux上安装的Kettle9.2.0连接Hive3.1.2

一、目标 Kettle9.2.0在Linux上安装好后,需要与Hive3.1.2数据库建立连接 之前已经在本地上用kettle9.2.0连上Hive3.1.2 二、各工具版本 (一)kettle9.2.0 kettle9.2.0安装包网盘链接 链接:https://pan.baidu.com/s/15Zq9w…

【自用】云服务器 docker 环境下 HomeAssistant 安装 HACS 教程

一、进入 docker 中的 HomeAssistant 1.查找 HomeAssistant 的 CONTAINER ID 连接上云服务器(宿主机)后,终端内进入 root ,输入: docker ps找到了 docker 的 container ID 2.config HomeAssistant 输入下面的命令&…

.netcore grpc双向流方法详解

一、双向流处理概述 简单来讲客户端可以向服务端发送消息流,服务端也可以向客户端传输响应流,即客户端和服务端可以互相通讯客户端无需发送消息即可开始双向流式处理调用 。 客户端可选择使用 RequestStream.WriteAsync 发送消息。 使用 ResponseStream…

SQL Developer中的Data Redaction

SQL Developer中的Data Redaction用起来比命令行方便多了。可以选定表或视图,右键点击“遮盖保护”菜单。 但赋权方面有需要注意的地方。 假设Redact Admin是SYS,Redact User是HR。虽然SYS具备所有权限,但还是报以下错误。其实这个错误是针…

docker复现Nginx配置漏洞

目录 1.docker环境搭建 2.复现过程 2.1CRLF(carriage return/line feed)注入漏洞 2.2.目录穿越 2.3.add_header覆盖 1.docker环境搭建 1.安装docker apt-get update apt-get install docker.ioyum install docker.io 2.下载并解压docker环境Nginx配置漏洞安装包 链接&am…

idea安装插件JRebel

一、安装插件 二、下载代理服务并启动 首先下载服务,网址 Releases ilanyu/ReverseProxy (kgithub.com) 下载后直接双击运行,杀毒软件可以会报警告,直接忽略就行 启动好,等着就行,接下来会用到。 三、在线获取GUID …