Vision Transformer推理中线性-角度注意转换压缩自注意

news/2025/4/2 20:27:44/文章来源:https://blog.csdn.net/qq_45745941/article/details/131591615

文章目录

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference
- 摘要
- 本文方法
- 实验结果

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference

摘要

与卷积神经网络(cnn)相比，ViTs表现出令人印象深刻的性能，但仍然需要较高的计算成本，其中一个原因是ViTs的注意力衡量全局相似性，因此具有与输入令牌数量的二次复杂度。现有的高效ViTs采用局部注意或线性注意，牺牲了ViTs捕获全局或局部上下文的能力。
本文方法

vit在学习全局和局部背景的同时，在推理过程中是否更有效，为此，我们提出了一个称为Castling-ViT的框架
使用线性角注意和基于掩码的基于softmax的二次注意来训练vit，但在推理期间切换到仅使用线性角注意。
Castling-ViT利用角核通过谱角度量查询和键之间的相似性。我们用两种技术进一步简化它:(1)新颖的线性-角注意机制:将角核分解为线性项和高阶残差，只保留线性项;(2)我们采用两个参数化模块来逼近高阶残差:深度卷积和辅助掩码softmax关注，以帮助学习全局和局部信息，其中softmax关注的掩码被正则化，逐渐变为零，因此在推理过程中不会产生开销。
代码地址

本文方法

在这里插入图片描述

线性注意力比以前的设计更强大，同时在推理过程中仍然有效。特别地，我们提出了(1)一种新的基于谱角的基于核函数的线性角注意，以缩小线性注意与基于软最大值的注意之间的精度差距;(2)利用基于softmax的注意力作为辅助分支来辅助线性-角度注意力的训练增强方法
在这里插入图片描述

实验结果

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/19152.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Blender--原理化体积

Blender--原理化体积

“原理化体积着色器将所有体积着色组件组合到一个易于使用的节点中。该节点含有散射，吸收和黑体辐射属性，因此，可以仅仅使用该着色器节点对烟雾和火焰等进行渲染。” 官方文档介绍：原理化体积 — Blender Manual 可以用于实现丁…

阅读更多...

Docker入门

Docker入门

目录： 常见概念评价指标单机架构应用数据分离架构应用服务集群架构读写分离 / 主从分离架构引入缓存 —— 冷热分离架构垂直分库业务拆分 —— 微服务容器化引入——容器编排架构总结 1.常见概念： 应用（Application） / 系统&am…

阅读更多...

mac使用conda（anaconda和miniconda一样）安装新版本的torch

mac使用conda（anaconda和miniconda一样）安装新版本的torch

使用pytorch给的命令行下载会很慢，因此我们应该修改镜像源，然后再下载torch 1.添加镜像在终端输入以下命令，添加镜像： conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/ conda conf…

阅读更多...

【STM32MP135】修改10.1寸屏1280x800分辨率配置，解决fb_size过小导致运行崩溃

【STM32MP135】修改10.1寸屏1280x800分辨率配置，解决fb_size过小导致运行崩溃

文件路径：u-boot-stm32mp-v2021.10-stm32mp1-r1/configs/stm32mp13_defconfig

阅读更多...

已解决Win11报错 OSError: [WinError 1455] 页面文件太小，无法完成操作。

已解决Win11报错 OSError: [WinError 1455] 页面文件太小，无法完成操作。

作者主页：爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typeblog个…

阅读更多...

spring中的扩展点解析以及实践使用

spring中的扩展点解析以及实践使用

文章目录 1、ApplicationContextInitializer2、BeanDefinitionRegistryPostProcessor3、BeanFactoryPostProcessor4、InstantiationAwareBeanPostProcessor5、SmartInstantiationAwareBeanPostProcessor6、BeanFactoryAware7、ApplicationContextAwareProcessor8、BeanNameAwar…

阅读更多...

PYTHON 解码 IP 层

PYTHON 解码 IP 层

PYTHON 解码 IP 层引言1.编写流量嗅探器1.1 Windows 和 Linux 上的包嗅探2.解码 IP 层2.1 struct 库3.编写 IP 解码器4.解码 ICMP5.总结作者：高玉涵时间：2023.7.12 环境：Windows 10 专业版 22H2，Python 3.10.4 引言 IP 是 …

阅读更多...

十四、flex弹性容器属性样式2

十四、flex弹性容器属性样式2

目录： 1.准备工作 2.属性解析： align-items 3.属性解析： align-content 4.弹性元素的属性一、准备工作我们在前面的基础上，修改代码，把ul的高度定下来，设置800px, li的高度不定。然后，body里…

阅读更多...

LVS + keepalived

LVS + keepalived

一、keepalived概述1.1 keepalived 服务重要功能1.1.1 管理LVS负载均衡器软件1.1.2 支持故障自动切换（failover）1.1.3 实现LVS集中节点的健康检查（health checking）1.1.4 实现 LVS 负载调度器、节点服务器的高可用性（H…

阅读更多...

OpenAI GPT-4 Code Interpreter测试

OpenAI GPT-4 Code Interpreter测试

OpenAI GPT-4 Beta版本Code Interpreter功能分析 OpenAI最近在GPT-4中推出了Code Interpreter功能的Beta版本，它是ChatGPT的一个版本，可以编写和执行Python代码，并处理文件上传。以下是对其表现的基本分析。主要功能文件信息获取&#xf…

阅读更多...

Blender基础入门（0）：下载和资源

Blender基础入门（0）：下载和资源

文章目录我个人的Blender专栏前言相关资料Blender和C4D如何选择视频资源BlenderBlender官网下载基础设置常用快捷键介绍空格键：跳出选择框ShiftA：跳出添加框选中物体按F9:显示物体属性 Blender能做到什么总结我个人的Blender专栏 Blender简单教学前…

阅读更多...

冯诺依曼结构和操作系统的理解

冯诺依曼结构和操作系统的理解

在正式讲解进程之前，需要先铺垫一些基本知识. 目录冯诺依曼结构操作系统冯诺依曼结构这个名词相信大家非常熟悉，我们常见的计算机，如笔记本。我们不常见的计算机，如服务器，大部分都遵守冯诺依曼体系。这张图…

阅读更多...

推荐文章

最新文章