论文略读:Window Attention is Bugged: How not to Interpolate Position Embeddings

iclr 2024 reviewer 打分 6666

  • 窗口注意力、位置嵌入以及高分辨率微调是现代Transformer X CV 时代的核心概念。
  • 论文发现,将这些几乎无处不在的组件简单地结合在一起,可能会对性能产生不利影响
  • 问题很简单:在使用窗口注意力时对位置嵌入进行插值是错误的
    • 相对位置嵌入直接添加到注意力矩阵——>不仅速度慢,而且无法从最近的创新中受益
    • 理想情况下,希望只使用简单快速的绝对位置嵌入,就像最初的ViT一样
  • 论文研究了两种具有这三个组件的最先进方法,即Hiera和ViTDet,发现两者确实都存在这个问题
    • Hiera是一个现代层次化视觉变换器,只使用绝对位置嵌入。
      • Hiera比其他最先进的视觉架构更强大、更高效,而且完全由简单的ViT块组成。
      • 但是,Hiera的插值效果不佳
      • 当在比训练时稍大的图像上微调Hiera时,所得模型的准确性急剧下降
      • 罪魁祸首是窗口注意力和绝对位置嵌入之间的相互作用
        • 即,在同一模型中同时使用窗口注意力和绝对位置嵌入时,在插值到更大的图像时会引入一个错误

  • 为了解决这个问题,论文引入了一种简单的绝对窗口位置嵌入策略,这在Hiera中彻底解决了这个问题,并允许在ViTDet中提高模型的速度和性能
    • 可以插值到任何图像大小而不会出现问题
  • 最终,论文将两者结合起来,得到了HieraDet,其在COCO上达到了61.7的box mAP
    • 这一切都源于本质上是一个3行代码的错误修复,我们将其命名为“absolute win”

  • ※论文并不声称引入了任何极其新颖的技术。相反,它识别并分析了当前最先进状态中存在的一个错误,引入了一个简单的策略来修复它,并建立了插值位置嵌入的最佳实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/623549.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RACE IPEMD:构建安全基石的密码学原理与实践

title: RACE IPEMD:构建安全基石的密码学原理与实践 date: 2024/4/16 16:53:56 updated: 2024/4/16 16:53:56 tags: IPEMD哈希算法SHA-1SHA-2/3消息摘要数字签名安全分析 前言 在当今信息爆炸的时代,数据安全和隐私保护变得尤为重要。密码学作为信息安…

Linux的学习之路:6、Linux编译器-gcc/g++使用

摘要 本文主要是说一些gcc的使用,g和gcc使用一样就没有特殊讲述。 目录 摘要 一、背景知识 二、gcc如何完成 1、预处理(进行宏替换) 2、编译(生成汇编) 3、汇编(生成机器可识别代码 4、链接(生成可执行文件或…

FebHost:为什么注册.BE比利时域名?

.be 是比利时的国家代码顶级域名(ccTLD),通常用于与该国有关的网网站。这个域名为那些希望在线上建立与比利时有关联系的个人、公司和组织提供了一个重要的网络标识。 .be 域名于1988年创建,由.BE域名注册机构管理,这…

leetcode hot100_day20

4/14/2024 128.最长连续序列 自己的 这是前两天做一半的题目了。这题给我的教训就是用哈希表的时候一定一定要考虑重复元素的问题!!!! 这题让我想到了最长递增子序列,只是名字有点像。子序列和子数组还不一样一个连续…

Databend 开源周报第 140 期

Databend 是一款现代云数仓。专为弹性和高效设计,为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务:https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展,遇到更贴近你心意的 Databend 。 支持 EXECUTE I…

项目7-音乐播放器2(上传音乐+查询音乐+拦截器)

0.加入拦截器 之后就不用对用户是否登录进行判断了 0.1 定义拦截器 0.2 注册拦截器 生效 1.上传音乐的接口设计 请求: { post, /music/upload {singer,MultipartFile file}, } 响应: { "status": 0, "message&…

访问者模式【行为模式C++】

1.概述 访问者模式是一种行为设计模式, 它能将算法与其所作用的对象隔离开来。 访问者模式主要解决的是数据与算法的耦合问题,尤其是在数据结构比较稳定,而算法多变的情况下。为了不污染数据本身,访问者会将多种算法独立归档&…

选择、插入、冒泡、计数、堆、归并、快速排序算法的Java代码汇总和GUI界面时间测试与讲解

运行效果: Video_2024-04-16_150519 文章目录 前言:排序算法在数据结构和算法中的重要性一、排序算法详解1.选择排序2.插入排序3.冒泡排序4.计数排序5.堆排序6.归并排序7.快速排序 二、实现一个可以计算时间的Java GUI排序应用程序 前言:排序…

【Linux】进程间通信——system V版本 共享内存

目录 共享内存 原理 实践 shmget() 创建共享内存 shmctl() 删除共享内存 shmat() 挂接进程和共享内存 shmt() 进程和共享内存去关联 共享内存的特性 优势 劣势 用共享内存实现进程间通信 共享内存 原理 两个进程的PCB各自维护着一个进程地址空间。当两个进…

ViM-UNet:用于生物医学细分的 Vision Mamba

ViM-UNet:用于生物医学细分的 Vision Mamba 摘要IntroductionMethod and Experiments结果与讨论 ViM-UNet: Vision Mamba for Biomedical Segmentation 摘要 卷积神经网络(CNNs),尤其是UNet,是生物医学分割的默认架构…

Linux安装部署Tomcat

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ Linux安装部署Tomcat //将tomcat压缩包解压到对…

Innodb之redo日志

Innodb引擎执行流程 redo log ​ MySQL中的redo log(重做日志)是实现WAL(预写式日志)技术的关键组件,用于确保事务的持久性和数据库的crash-safe能力。借用《孔乙己》中酒店掌柜使用粉板记录赊账的故事,…