Revealing the Dark Secrets of MIM

论文名称: Revealing the Dark Secrets of Masked Image Modeling
发表时间:CVPR2022
作者及组织:Zhenda Xie, Zigang Geng, Hu Han等,来自清华,中科院,微软亚洲研究院。

前言

 本文尝试探讨MIM为何有效的原因。

1、结论

 由于是篇充满可视化及对比实验的文章,因此先说结论:
 1) MIM能给模型所有层带来归纳偏置;
 2) MIM能给不同Head带来多样性;
 3) MIM在感知任务和细分类任务上优于全监督预训练。

2、对比实验条件设置

 Backbone:VIT-B
 预训练方法:全监督(DeiT),对比学习(Moco),MIM

3、可视化角度

 论文从不同角度,可视化了三种预训练方法的热图。下面将分别介绍:

3.1.Head内的平均注意力距离(AAD)

 简单说下平均注意力距离计算方法:在得到Attntion Mat后,遍历每个token与之匹配token 的相对距离,将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
在这里插入图片描述

 在上图中,横坐标表示不同层,纵坐标表示AAD,每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致,而MIM还保持了较大分布范围,因此便得出MIM能给不同层带来归纳偏置。

3.2.Head权重值的熵(权重值的分布)

 论文之后可视化了每个Head的熵(-p*logp)分布,能够衡量每个Head属于全局注意力Or局部注意力。
在这里插入图片描述

 从上图可以看出,全监督和对比预训练方法在最后三层的Head熵挺大的,表示Attention Mat关注的范围更广,即全局注意力;而MIM则在最后三层熵分布范围广,即保证局部注意力同时也保证了全局注意力。

3.3.不同Head之间权重分布相似性

  上述两个指标表示MIM的Head关注范围丰富,但无法确定Head与Head之间分布相似性,因此作者又衡量了不同Head之间的分布的相似性,即利用KL散度。
在这里插入图片描述

  上图中大圆圈表示当前层平均KL散度,MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。

3.4.特征图FM之间相似性

  作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图,颜色越亮表示越相似。可以发现,MIM层与层之间FM趋于相似。

在这里插入图片描述

4、实验角度

 该章节则是从对比实验角度比较三种预训练方法。
在这里插入图片描述

 在感知任务上MIM效果更好,得益于MIM引入归纳偏置和Attntion Mat多样性丰富。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/411275.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java SE入门及基础(19)

二维数组 1. 数组的本质 数组从本质上来说只有一维,二维数组是指在一维数组中再放入一个一维数组。三维数组、四维数组依次类推。 2. 二维数组的定义 语法 数据类型[][] 数组名 new 数据类型[数组的长度][数组的长度]; 示例 public static void main ( Str…

Skywalking链路追踪

目录 一、简介1.1、APM系统1.2、SkyWalking 简介 二、快速入门2.1、下载、启动2.2、界面认识 三、持久化存储四、告警通知五、自定义追踪-细粒度追踪service方法 一、简介 1.1、APM系统 APM(Application Performance Monitoring)系统是一种用于监控和管…

FindMy技术与相机结合

FindMy是苹果公司提供的设备追踪服务,用来帮助用户定位丢失的设备。自苹果公司开放Findmy网络之后,FindMy技术便与各种生活设备相结合,比如与相机的结合。 想象一下,你正在外出办事或者旅行时,突然意识到相机丢了&…

MySQL中根据出生日期计算年龄

创建student表 mysql> create table student( -> sid int primary key comment 学生号, -> sname varchar(20) comm…

Android-常用数据结构和控件

HashMap 的原理 HashMap 的内部可以看做数组链表的复合结构。数组被分为一个个的桶(bucket)。哈希值决定了键值对在数组中的寻址。具有相同哈希值的键值对会组成链表。需要注意的是当链表长度超过阈值(默认是8)的时候会触发树化,链表会变成树形结构。 把握HashMap的…

Pytorch各种Dropout层应用于详解

目录 torch框架Dropout functions详解 dropout 用途 用法 使用技巧 参数 数学理论公式 代码示例 alpha_dropout 用途 用法 使用技巧 参数 数学理论公式 代码示例 feature_alpha_dropout 用途 用法 使用技巧 参数 数学理论 代码示例 dropout1d 用途 用…

注解实现校验接口传参是否超出取值范围

文章目录 1、定义注解2、使用注解3、其余校验实现思路2.04、其余校验实现思路3.0 写接口,Dto里很多字段要检验传参范围,自定义个注解来校验。 1、定义注解 注解定义代码: import javax.validation.Constraint; import javax.validation.Con…

基于python+uniapp的网上订餐系统的设计与实现 微信小程序

考虑到实际生活中在晓海网上订餐方面的需要以及对该系统认真的分析,将系统权限按管理员和用户这两类涉及用户划分。 (1)用户功能需求 用户进入APP可以进行首页、系统公告、在线投诉、我的等操作,在我的页面可以对菜品评价、订单信…

Python GUI库大汇总

所有程序都是基于命令行的,这些程序可能只有一些“专业”的计算机人士才会使用。例如前面编写的五子棋等程序,恐怕只有程序员自己才愿意玩这么“糟糕”的游戏,很少有最终用户愿意对着黑乎乎的命令行界面敲命令。 相反,如果为程序…

计算机系统基础知识揭秘:硬件、处理器和校验码

计算机系统基础知识揭秘:硬件、处理器和校验码 一、计算机系统基础知识的重要性二、计算机系统硬件2.1、内存和存储设备2.2、输入输出设备 三、中央处理器(CPU)3.1、运算器3.2、控制器3.3、寄存器组3.4、多核CPU 四、数据表示4.1、原码、反码…

顶顶通呼叫中心中间件自动外呼来电转人工显示被叫号码而不是显示路由条件 :一步步配置(mod_cti基于FreeSWITCH)

介绍 顶顶通呼叫中心中间件自动外呼来电转人工显示被叫号码而不是显示自动外呼的路由条件,可以是默认的被叫号码也可以改为显示指定的号码 一、显示默认被叫 1、配置拨号方案 打开ccadmin-》点击拨号方案-》找到进入排队-》配置跟图中一样的通道变量。修改了拨号…

常见框架漏洞

1.什么是框架 Web框架(Web framework)或者叫做Web应用框架(Web application framework),是用于进行Web开发的一套软件架构。大多数的Web框架提供了一套开发和部署网站的方式。为Web的行为提供了一套支持的方法。使用Web框架,很多的业务逻辑外的功能不需…