计算机视觉注意力机制小盘一波（学习笔记）-编程知识

将注意力的阶段大改分成了4个阶段

1.将深度神经网络与注意力机制相结合，代表性方法为RAM

⒉.明确预测判别性输入特征，代表性方法为STN

3.隐性且自适应地预测潜在的关键特征，代表方法为SENet

4.自注意力机制

通道注意力

在深度神经网络中，每个卷积层通常包含多个通道，每个通道对应一个特定的特征。

通道注意力的目标是根据每个通道的重要性，动态地调整通道的权重,

以便在网络中更好地捕捉和利用重要的特征。

通过显示建模通道之间的相互依赖性，重新校准通道方面的特征响应

在squeeze阶段，通过全局平均池化操作，将卷积层的输出特征图压缩成一个特征向量

然后再excitation阶段，通过使用全连接层和非线性激活函数

学习生成一个通道的权重向量（被应用于原始特征图的每个通道），已对不同通道的特征进行加权

空间注意力

空间注意力可以被看作是一种自适应的空间区域选择机制。

空间注意机制允许神经网络在处理输入数据时，有选择性地关注特定的空间位置或区域，

以便更好地提取有用的特征。

可以帮助网络集中注意力在重要的区域上，忽略或减少对不相关区域的处理。
其应用范围比通道注意力多出了精细分类(FGCls)和图像字幕(ICap)。

它通过策略梯度以端到端的方式循环预测重要区域，并更新整个网络

明确预测相关区域

引入空间变换器模块的方法

该模块可以对输入数据进行几何变换平移旋转缩放

核心思想是通过一个空间变换器使得网络可以自动学习对输入数据进行合适的几何变换

从而提升网络的鲁棒性和泛化能力

隐式的进行softmask的预测

该篇paper 提出了一种新的特征上下文利用方法

gather excite 通过在卷积神经网络的不同层之间收集特征信息，

并在每个层中激活重要的特征，从而提升网络的性能

传统的卷积神经网络在处理图像时，通常只考虑局部的特征

然而在某些任务重，全局上下文信息对于准确的预测非常重要

Non-local Neural Networks 非局部神经网络通过引入非局部操作

使得网络能够在任意位置上对全局信息进行交互

时间注意力

时间注意力可以被看作是一种动态的时间选择机制，决定了何时进行注意，因此通常用于视频处理。

本文提出了全局局部时间表示来利用视频序列中的多尺度时间线索

进行视频人物重新识别

本篇Method 为首先对相邻帧之间的短期时间线索，进行建模

然后捕获不连续帧之间的长期关系

tam模块的核心思想是引入一个自适应的时间注意力模块

他通过学习得到每个时间步骤的注意力权重从而决定那些时间步骤对于当前任务更加重要

这样模型在不同视频中动态选择时间窗口的长度以适应不同的时间尺度

分支注意力

分支注意力通常用于多分支的神经网络中，其中每个分支都专注于不同的特征子集。
这些分支可以是不同层级的特征提取器，也可以是不同任务的子模型。

通过引入分支注意力，模型可以自动学习每个分支的权重, 以便更好地利用不同分支的特征。

提出了全新的高速网络架构用于优化深度神经网络由于梯度爆炸和梯度消失而导致的训练苦难的问题

引入门控机制来控制信息的流动从而允许网络更好地学习输入数据中的非线性关系

提出一种条件参数卷积

他可以为每个样例学习一个特定的卷积kernel参数通过替换标准卷积

通道空间注意力

CBAM小陈读paper系列-CSDN博客

channel attention 学习通道间的依赖关系来调整通道的重要性以增强网络对不同通道的感知能力

spatial attention 空间上空间

时空注意力

结合了空间注意力和时间注意力的优点,能够自适应地选择重要区域和关键帧。

1.Attention Mechanisms in Computer Vision: A Survey（https://arxiv.org/abs/2111.07624）

2.Squeeze-and-Excitation Networks（https://arxiv.org/abs/1709.01507）

3.Recurrent Models of Visual Attention（https://arxiv.org/abs/1406.6247）

4.Spatial Transformer Networks（https://arxiv.org/abs/1506.02025）

5.Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks（https://arxiv.org/abs/1810.12348）

6.Non-local Neural Networks（https://arxiv.org/abs/1711.07971）

7.Global-Local Temporal Representations For Video Person Re-Identification（https://arxiv.org/abs/1908.10049）

8.TAM: Temporal Adaptive Module for Video Recognition（https://arxiv.org/abs/2005.06803） 9.Training Very Deep Networks（https://arxiv.org/abs/1507.06228）

10.CondConv: Conditionally Parameterized Convolutions for Efficient Inference（https://arxiv.org/abs/1904.04971）

11.CBAM: Convolutional Block Attention Module（https://arxiv.org/abs/1807.06521） 12.Residual Attention Network for Image Classification（https://arxiv.org/abs/1704.06904）

13.Recurrent Spatial-Temporal Attention Network for Action Recognition in Videos（https://ieeexplore.ieee.org/document/8123939）

14.STA: Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identification（https://arxiv.org/abs/1811.04129）

15.Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification

本期内容为b站学习笔记

计算机视觉注意力机制大盘点！Attention is all you need！_哔哩哔哩_bilibili