【YOLO v5 v7 v8 小目标改进】ODConv:在卷积核所有维度(数量、空间、输入、输出)上应用注意力机制来优化传统动态卷积

ODConv:在卷积核所有维度(数量、空间、输入、输出)上应用注意力机制来优化传统的动态卷积

    • 提出背景
      • 传统动态卷积
      • 全维动态卷积
      • 效果
    • 小目标涨点
      • YOLO v5 魔改
      • YOLO v7 魔改
      • YOLO v8 魔改

 


论文:https://openreview.net/pdf?id=DmpCfq6Mg39

代码:https://github.com/OSVAI/ODConv

 

提出背景

在过去的十年里,我们见证了深度卷积神经网络(CNN)在许多计算机视觉应用中的巨大成功。

构建深度CNN的最常见方法是堆叠多个卷积层以及其他基本层,并预先定义特征连接拓扑。

通过手工工程和自动搜索对CNN架构设计的巨大进步,许多流行的分类骨架已经被提出。

最近的工作表明,将注意力机制融入卷积块可以进一步提高现代CNN的性能。

问题1:提高CNN性能

  • 解法:引入注意力机制。
  • 之所以使用这个解法,是因为注意力机制可以加强CNN通过鼓励有用的特征通道同时抑制不重要的特征通道,从而提高表示能力。

问题2:动态卷积的设计限制

  • 子解法1:多维度注意力机制(ODConv)
    • 之所以使用ODConv,是因为现有的动态卷积方法只关注卷积核数量的一个维度,而忽略了卷积核空间的其他三个维度(空间大小、输入通道数和输出通道数),限制了捕获丰富上下文线索的能力。
  • 子解法2:减少模型大小
    • 之所以使用这个子解法,是因为传统的动态卷积在替换常规卷积时会增加n倍的卷积参数,导致模型大小大幅增加。通过动态卷积分解方法,可以获得更紧凑且竞争力的模型。

传统动态卷积

在这里插入图片描述
上图是 DyConv(a 传统的动态卷积)和ODConv(b 本文的全维动态卷积)的结构图比较。

在DyConv中,使用全局平均池化(GAP)、全连接层(FC)和Sigmoid激活函数来计算单个注意力标量 α w i αw_i αwi,这个标量用于加权卷积核 W i W_i Wi

相比之下,ODConv采用了更复杂的多维度注意力机制来计算四种类型的注意力( α s i , α c i , α f i , 和 α w i αs_i, αc_i, αf_i, 和 αw_i αsi,αci,αfi,αwi),这些注意力分别对应于卷积核空间的不同维度。

四个不同的注意力通过四个分支生成,并通过Sigmoid或Softmax函数进行归一化。

这些注意力分别沿着卷积核空间的空间维度、输入通道维度、输出通道维度和卷积核数量维度被计算出来,并且以并行的方式应用于卷积核。

 

全维动态卷积

ODConv通过在任何卷积层利用新颖的多维度注意力机制来学习卷积核空间所有四个维度上的四种注意力,这些注意力相互补充,逐步应用它们可以显著增强CNN的基本卷积操作的特征提取能力。

让我们以ODConv在任何卷积层利用新颖的多维度注意力机制来学习卷积核空间所有四个维度上的四种注意力为例,举一个具体的应用场景来说明这种方法的有效性。

ODConv解法

  • 子特征1:空间尺寸注意力。ODConv学习不同空间尺寸的卷积核的重要性,从而能够更好地捕捉图像的局部和全局特征。之所以使用空间尺寸注意力,是因为不同大小的特征图对于捕获图像中的不同尺度信息至关重要。

  • 子特征2:输入通道注意力。通过调整对不同输入通道的关注程度,ODConv可以更有效地整合来自不同特征通道的信息。之所以使用输入通道注意力,是因为不同的特征通道可能包含不同的信息,对最终的识别任务有不同的贡献。

  • 子特征3:输出通道注意力。ODConv通过学习对输出通道的不同关注,优化了特征的表示。之所以使用输出通道注意力,是为了强化模型的能力,以区分和识别图像数据集中的细粒度类别。

  • 子特征4:卷积核数量注意力。通过动态调整不同卷积核的权重,ODConv能够根据输入图像的特征自适应地选择最适合的卷积核组合。之所以使用卷积核数量注意力,是因为它允许模型根据输入特征的复杂度动态调整其表示能力,从而在保持效率的同时提高准确性。

在这里插入图片描述
(a) αs_i:空间维度注意力,它将不同的权重分配给卷积核的每个空间位置。

(b) αc_i:输入通道维度注意力,它将不同的权重分配给卷积核的每个输入通道。

© αf_i:输出通道维度注意力,它将不同的权重分配给卷积核的每个输出滤波器。

(d) αw_i:卷积核维度注意力,它将一个整体的权重分配给整个卷积核集合。

因此,即使是使用单个卷积核的ODConv也能与现有的具有多个卷积核的动态卷积对手竞争或胜出,大大减少了额外的参数。

ODConv可以作为一种插入式设计用于替代许多CNN架构中的常规卷积,与现有的动态卷积设计相比,它在模型准确性和效率之间取得了更好的平衡。

 

在传统的CNN中,每个卷积层都使用固定的卷积核来处理输入的图像或特征图,这意味着无论输入数据如何,都会应用相同的卷积核。

然而,这种方法并不总是最优的,因为不同的输入图像可能需要不同的特征提取方式来更好地识别物体。

ODConv通过引入一种新颖的多维度注意力机制来解决这个问题。

具体来说,它在任何给定的卷积层中,不仅仅学习一个卷积核,而是学习一组卷积核,每个卷积核都针对卷积核空间的一个特定维度(如卷积核的空间尺寸、输入通道数、输出通道数和卷积核数量)。

然后,它使用输入特征动态地决定这些卷积核的注意力权重,使得网络能够根据输入图像的不同特征自适应地调整其卷积操作。

例如,如果输入图像是一只猫,ODConv可能会赋予识别猫特征(如毛发纹理或尾巴形状)更有用的卷积核更高的注意力权重。

相反,如果输入图像是一只鸟,它可能会增加那些能够捕捉到鸟的特征(如羽毛或翅膀形状)的卷积核的权重。

通过这种方式,ODConv能够为每个输入图像动态地优化其卷积操作,从而在不同的图像分类任务中实现更高的准确性,同时减少了需要的额外参数数量,因为它甚至可以使用单个卷积核与现有的多卷积核动态卷积方法竞争或超越它们的性能。

效果

ODConv的核心原理是引入一种全新的多维度注意力机制,这种机制不仅考虑卷积核的数量维度(如传统的动态卷积所做的),而且还同时考虑卷积核的空间维度、输入通道维度和输出通道维度。

这种方法允许网络根据输入数据的具体特点,在多个层面上动态调整其卷积核的权重,从而提高特征提取的能力。

ODConv通过在所有卷积核维度上应用注意力机制来优化传统的动态卷积,这样做可以提供更精细的特征处理能力,并提高模型对输入数据变化的适应性和敏感性。

这种细粒度的动态调整使得ODConv能够在增加很少或没有额外计算成本的情况下,提高模型的准确性和效率。

通过在轻量级CNN模型中应用ODConv,我们可以显著提高模型对图像的识别准确率,而不会带来太多的额外计算成本。

例如,将ODConv集成到MobileNetV2中,可能会在ImageNet测试集上获得比原始模型更高的分类准确率,同时保持模型的轻量级特性。

这种方法通过综合考虑卷积核的所有维度上的注意力,有效地增强了特征的表达力,解决了轻量级CNN在复杂任务上性能不足的问题。

小目标涨点

更新中…

YOLO v5 魔改

YOLO v7 魔改

YOLO v8 魔改

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/503521.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库-第二/三章 关系数据库和标准语言SQL【期末复习|考研复习】

前言 总结整理不易,希望大家点赞收藏。 给大家整理了一下计数据库系统概论中的重点概念,以供大家期末复习和考研复习的时候使用。 参考资料是王珊老师和萨师煊老师的数据库系统概论(第五版)。 文章目录 前言第二、三章 关系数据库和标准语言SQL2.1 关系2…

Vue+SpringBoot打造个人保险管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 登录注册模块2.2 保险档案模块2.3 保险订单模块2.4 保险理赔模块 三、系统展示四、核心代码4.1 查询保险产品4.2 新增保险预定4.3 订单支付4.4 新增理赔单4.5 查询保险理赔 五、免责说明 一、摘要 1.1 项目介绍 基于J…

Spring MVC源码中设计模式——适配器模式

适配器模式介绍 适配器模式(Adapter Pattern)是作为两个不兼容的接口之间的桥梁。这种类型的设计模式属于结构型模式,它结合了两个独立接口的功能。 应用场景: 1、系统需要使用现有的类,而此类的接口不符合系统的需要…

leedcode刷题--day7(字符串)

23 文章讲解 力扣地址 C class Solution { public:void reverseString(vector<char>& s) {int left 0;int right s.size() - 1; // right 应该初始化为 s.size() - 1while (left < right) {swap(s[left], s[right]); // 直接交换 s[left] 和 s[right] 的值lef…

备战蓝桥杯---状态压缩DP基础1之棋盘问题

它只是一种手段&#xff0c;一种直观而高效地表示复杂状态的手段。 我们先来看一道比较基础的&#xff1a; 直接DFS是肯定不行&#xff0c;我们发现对某一行&#xff0c;只要它前面放的位置都一样&#xff0c;那么后面的结果也一样。 因此我们考虑用DP&#xff0c;并且只有0/…

操作系统x面试|进程与线程

1. 线程进程的区别 进程可以称为是资源分配的最小单元&#xff0c;而线程可以称为是处理器分配的最小单元。 资源包括内存空间。同时进程是一段代码的执行过程&#xff0c;这段代码需要多少的内存在代码确定时已经确定下来了。 处理器就是执行单元&#xff0c;一个进程可以拆解…

Vue3速成

文章目录 day 11. 创建vue3工程3. 响应式数据4. 计算属性 day 25. watch 监视6. watchEffect7. 标签的ref属性8. 回顾TS中的接口_泛型_自定义类型 day 1 1. 创建vue3工程 相关代码如下&#xff1a; ## 创建vue工程 npm create vuelastest## 安装node_modules npm install //…

分类问题经典算法 | 二分类问题 | Logistic回归:梯度下降

目录 一. 损失函数1. 交叉熵损失函数2. 梯度下降 一. 损失函数 Logistic回归算法公式推导篇中&#xff0c;我们通过对似然函数求对数&#xff0c;得到 l ( θ ) l(\theta ) l(θ)&#xff1a; l ( θ ) l n [ L ( θ ) ] ∑ i 1 M { y ( i ) l n [ h θ ( x ( i ) ) ] ( …

laravel ApiResponse接口统一响应封装

一&#xff0c;新增接口返回码配置文件 在config中新增配置文件apicode.php <?phpreturn [ apicodes>[/*** Message("OK")* 对成功的 GET、PUT、PATCH 或 DELETE 操作进行响应。也可以被用在不创建新资源的 POST 操作上*/HTTP_OK > 200,/*** Message(&qu…

优化云的 10 种方法...

云优化是正确选择正确的资源并将其分配给工作负载或应用程序的过程&#xff0c;确保资源得到有效利用并优化性能。这是为了确保您充分利用云基础设施。这包括确保您没有过度配置&#xff08;或者实际上配置不足&#xff09;资源&#xff0c;并确保您为正确的任务使用正确的服务…

职场的过早优化

过早优化&#xff0c;指的是还没弄清楚需求未来的变化的走向的时候&#xff0c;忽略了更重要的问题。 放在职业发展上&#xff1a;你在没有积累足够职场资源&#xff08;眼界、能力、人脉等等&#xff09;&#xff0c;也没有对职业发展形成清晰认知的时候&#xff0c;就过早地进…

UE学习笔记--解决滚轮无法放大蓝图、Panel等

我们发现有时候创建蓝图之后&#xff0c;右上角的缩放是1&#xff1a;1 但是有时候我们可能需要放的更大一点。 发现一直用鼠标滚轮像上滚动&#xff0c;都没有效果。 好像最大只能 1&#xff1a;1. 那是因为 UE 做了限制。如果希望继续放大&#xff0c;我们可以按住 Ctrl 再去…