第十二章 原理篇:vision transformer

参考教程:
https://arxiv.org/pdf/2010.11929.pdf
https://zhuanlan.zhihu.com/p/340149804 【大佬总结的非常好,他的好多篇文章都很值得学习】

文章目录

  • 为什么会使用transformer
  • VIT详解
    • method
      • 获得patch
      • patch embedding
      • position embedding
    • 代码实现
      • einops
        • rearrange
        • repeat
        • reduce
      • 获得patch
      • cls token和pos embedding
      • VIT forward
  • TNT: transformer in transformer

为什么会使用transformer

transformer在NLP领域广泛使用,它解决了RNN的并行化问题,并且能适应不同的语境。

既然如此,为什么不能在图像领域也使用这样的方法呢?
我们知道计算机视觉中普遍使用的是卷积神经网络,通过卷积核在feature上滑动窗口处理,一层一层地传递信息,并得到图像的特征。

在卷积神经网络中,有一个很重要的概念——感受野。感受野就是你站在当前层的一个像素点,能看到的原始图像的像素范围有多大。对于一张图像,你使用3*3的核进行卷积处理,在得到的featuremap中,你的感受野大小就是3*3。此时再用一个3*3的核进行卷积处理,再新的featuremap中,你的感受野就是5*5。

受卷积核大小的限制,你需要堆叠很多的层才能得到比较大的感受野。为什么不直接使用大卷积核呢?一方面来说大卷积核计算也更复杂,但是效果并不如小卷积核好。另一方面3*3卷积作为最广泛使用的卷积,针对它的底层优化也比别的大小的做的要好。

做CNN的时候是只考虑感受野红框里面的资讯,而不是图片的全局信息。所以CNN可以看作是一种简化版本的self-attention。
或者可以反过来说,self-attention是一种复杂化的CNN,在做CNN的时候是只考虑感受野红框里面的资讯,而感受野的范围和大小是由人决定的。但是self-attention由attention找到相关的pixel,就好像是感受野的范围和大小是自动被学出来的
引用自:https://zhuanlan.zhihu.com/p/340149804
ps:这个大佬文章写的真的很不错,学到了很多。

你在做卷积的时候,人为设定的卷积核决定了你每步操作时元素所能观测到的范围,感受野中的一个点也只会和这个点附近的别的点存在联系,这个大小和范围取决于你的模型架构。
self-attention中,每个元素都能观测到其余的元素,并自我学习哪个元素对自己的影响更大,所以说这个范围和大小是自动学习的。
但是这种自学习也让模型更加flexible,对训练数据的要求也就越高。所以重新训练一个比较好的transformer模型也是比较困难的,好在我们可以站在前人的肩膀上,使用别人的预训练模型。

VIT详解

论文名称:《an image is worth 16x16 words: Transformers for Image Recognition at scale》
在这里插入图片描述
论文标题通俗易懂,再配合图片使用效果更好。一眼过去我们就能直接看到作者首先把一张图片分成了多个小块,然后处理后作为transformer encoder的输入。
也就是说它把图片分块处理后,当作一段文本中的连续单词,使用transformer的encoder来寻找一个单词与别的单词的联系,也就是寻找image patch之间的关系。

method

获得patch

论文中写到,一个标准的transformer会接受一个token embeddings的序列作为输入。现在输入变成了2D的图像,那么就把图像分割成一个p*p大小的patch,并且每个patch通过flatten展开,就变成了个长度为 p 2 p^2 p2的vector,vector的个数是 N = H W / p 2 N=HW/p^2 N=HW/p2。那么这样我们的输入也就变成了一个序列。N是序列的长度, p 2 p^2 p2是序列的维度。

通常情况下,对于一个输入大小为224*224的图像,假如要分成16*16大小的patch,那你就会得到14*14个长度为256的vector。

对于一个输入大小为224*224*224的图像,分成16*16大小的patch后,每一块都为16*16*3,那么你会得到14*14个长度为768的vector。

patch embedding

我们现在得到的是一个序列,序列的长度为N,每个元素都是一个大小为 p 2 p^2 p2*c的embedding。这和我们的目标之间还有一点点差距。假如说我们期望的给transformer encoder的输入大小为N*D,那么我们已经有N了,接下来就需要把 p 2 p^2 p2*c变成D。
z 0 = [ x c l a s s ; x p 1 E ; x p 2 E ; . . . ; x p N E ] + E p o s , E ∈ R ( P 2 ∗ C ) × D , E p o s ∈ R ( N + 1 ) × D z_0 = [x_{class}; x^1_pE; x^2_pE; ...; x^N_pE] + E_{pos}, E\in R^{(P^2* C)\times D}, E_{pos}\in R^{(N+1)\times D} z0=[xclass;xp1E;xp2E;...;xpNE]+Epos,ER(P2C)×D,EposR(N+1)×D
这里的E可以看作一个全连接层,它的输入大小是 p 2 p^2 p2*c,输出大小是D,通过全连接层就可以把我们的N*( p 2 p^2 p2*c)变成N*D。
并且这里还追加了一个向量xclass。这里是学习了在BERT中的方法,追加的这个向量用于进行对全局特征的把控,并且它也是我们最终用于进行分类预测的向量。

position embedding

就像之前解释过的transformer的原理一样,通过一个元素的q和所有元素的k的内积来判断元素的关注点,它也存在一个问题,就是我们不知道元素的顺序,不知道它在整个文章中的位置。所以在输入encoder/decoder前,embedding上添加了一个额外的位置编码。
使用卷积神经网络的时候,featuremap中点的相对位置也不会随着卷积的进行而发生改变,假如你直接用编码后的image patch作为输入,你会发生你已经丢失了patch之间的相对位置信息。因此在这种情况下,我们也需要一个位置编码。
VIT论文中尝试比较了几个方法,比如:

  • 直接按顺序排序。
  • 加坐标形式的位置编码。

实验表明编码对学习是有帮助的,但是编码的方法影响不大。

代码实现

进行一些简单的代码实现。
其实可以和上一节原理解释放一起,分开放整体目录结构看着比较规整,所以还是分开放了。

核心的部分就是如何构建一个传入transformer encoder的输入。按照之前的解释:

  1. 把图像分成patch
  2. 图像编码成目标维度
  3. 增加一个额外的xclass
  4. 增加position embedding

然后获得的embedding就可以传入到模型中去。
那么我们现在就来一步一步完成这一部分。

einops

参考链接:https://github.com/arogozhnikov/einops

eniops是一个方便的进行张量操作的库。它支持多种数据类型,并且给出很直观的数据变换。它比较常用的函数包括:rearrange, reduce, repeat。看上去只有三个函数,但是它们的功能性很强。

在我们对输入图像分patch的操作中就会用到rearrange方法,所以先来了解一下这个库。

from einops import rearrange, reduce, repeat
# rearrange elements according to the pattern
output_tensor = rearrange(input_tensor, 't b c -> b c t')
# combine rearrangement and reduction
output_tensor = reduce(input_tensor, 'b c (h h2) (w w2) -> b h w c', 'mean', h2=2, w2=2)
# copy along a new axis
output_tensor = repeat(input_tensor, 'h w -> h w c', c=3)

rearrange

This operation includes functionality of transpose (axes permutation), reshape (view), squeeze, unsqueeze, stack, concatenate and other operations.

rearrange提供了一些维度变化上功能,比如transpose,squeeze等。我们来看个具体的使用例子。

rearrange(tensor: Union[Tensor, List[Tensor]], pattern: str, **axes_lengths) -> Tensor

它的输入是一个tensor或者tensor的序列,第二个输入是pattern,也就是你希望在这个tensor上做的变化,pattern的类型是字符串,你需要用类似文字描述的形式来定义这个pattern。axse_lengths是对一些变量值的具体定义。

>>> rearrange(images, 'b h w c -> (b h) w c').shape(960, 40, 3) # b和h两个维度被合并# concatenated images along horizontal axis, 1280 = 32 * 40>>> rearrange(images, 'b h w c -> h (b w) c').shape(30, 1280, 3) # b和w两个维度被合并# reordered axes to "b c h w" format for deep learning>>> rearrange(images, 'b h w c -> b c h w').shape(32, 3, 30, 40) # 维度c的和hw的位置变换

当然它也可以实现维度的拆解。或者别的组合方式。

# decomposition is the inverse process - represent an axis as a combination of new axes
# several decompositions possible, so b1=2 is to decompose 6 to b1=2 and b2=3
rearrange(ims, '(b1 b2) h w c -> b1 b2 h w c ', b1=2).shape
rearrange(ims, 'b h (w w2) c -> (h w2) (b w) c', w2=2)

repeat

einops.repeat allows reordering elements and repeating them in
arbitrary combinations.
This operation includes functionality of repeat, tile, broadcast functions.

repeat函数允许你对tensor的维度进行奇怪的重复+组合。

>>> repeat(image, 'h w -> h w c', c=3).shape(30, 40, 3)# repeat image 2 times along height (vertical axis)>>> repeat(image, 'h w -> (repeat h) w', repeat=2).shape(60, 40)# repeat image 2 time along height and 3 times along width>>> repeat(image, 'h w -> (h2 h) (w3 w)', h2=2, w3=3).shape(60, 120)# convert each pixel to a small square 2x2. Upsample image by 2x>>> repeat(image, 'h w -> (h h2) (w w2)', h2=2, w2=2).shape(60, 80)

reduce

python einops.reduce provides combination of reordering and
reduction using reader-friendly notation.

reduce函数允许你进行重排和缩减操作。

reduce(tensor: Tensor, pattern: str, reduction: Reduction, **axes_lengths: int) -> Tensor:

它的第一个输入是你的tensor,第二个输入代表你进行reduction的方式。

 # 2d max-pooling with kernel size = 2 * 2 for image processing>>> y1 = reduce(x, 'b c (h1 h2) (w1 w2) -> b c h1 w1', 'max', h2=2, w2=2)# Subtracting mean over batch for each channel>>> y = x - reduce(x, 'b c h w -> () c () ()', 'mean')

获得patch

把patch的获取和组合放在同一步。

  • 图像取patch
  • patch重组+全连接

patch的获取给出两种方法,第一种就是使用einops中的rearrange方法。
对于给定的img,使用pattern ''b c (h p1) (w p2) -> b (h w) (p1 p2 c)",将它的形状转变为 b*n* (p^2*c)的大小。也就是说我们的batchsize是b,每个输入是n* (p^2*c)。之后再用全连接把它传换成n*D。

class PatchEmbed(nn.Module):def __init__(self, img_size=224, patch_size=16, in_c=3, embed_dim=768, norm_layer=None):super().__init__()self.proj = Rearrange('b c (h p) (w p ) -> b (h w) (p1 p2 c)', p = patch_size)self.linear = nn.Linear(patch_size * patch_size * in_c, embed_dim)self.norm = norm_layer(embed_dim) if norm_layer else nn.Identity()def forward(self, x):x = self.proj(x)x = self.linear(x)x = self.norm(x)return x

第二种是使用卷积的方法。

class PatchEmbed(nn.Module):def __init__(self, img_size=224, patch_size=16, in_c=3, embed_dim=768, norm_layer=None):super().__init__()img_size = (img_size, img_size)self.proj = nn.Conv2d(in_c, embed_dim, kernel_size = patch_size, stride=patch_size)self.norm = norm_layer(embed_dim) if norm_layer else nn.Identity()def forward(self, x):# proj(x)把输入为 b, 3, 224, 224的img变成了b, 768, 14, 14# 然后flatten变成 b, 768, 196# 再tranpose变成b, 196, 768x = self.proj(x).flatten(2).transpose(1,2)x = self.norm(x)return x

cls token和pos embedding

得到原始的embedding后,比如说我们现在的embedding大小时b*196*768,我们需要给它增加一个额外的cls token,这个token会用于计算全局特征。

# 增加一个cls_token,大小为1,长度为emb_size。在我们的例子中就是1*768
cls_token = nn.Parameter(torch.randn(1,1, emb_size))
# 因为我们有batch组数据,所以使用repeat
# 这里也可以cls_token.expand(embed.shape[0],-1,-1)
cls_token = repeat(cls_token, '() n e -> b n e', b=b)
# embed是我们上一步得到的embedding,在b n e中n的维度进行concatenate
# 那我们现在得到的embedding大小为 b*197*768
embed = torch.cat([cls_token, embed], dim = 1)

position embedding直接按简单的方法生成就可以,不需要按照nlp中的整什么sincos的方法。

 self.positions = nn.Parameter(torch.randn((img_size // patch_size) **2 + 1, emb_size))

这个position embedding和上一步得到的embedding的大小应该是保持一致的,都是197*768。

VIT forward

参考教程: https://github.com/google-research/vision_transformer

一步一步梳理一下我们的输入进入模型后都经过了怎样的处理。

  1. 输入img,获得patch,并转成embedding的形式。
  2. 增加cls embedding和position embedding。
  3. 进入transformer encoder构成的blocks。每个block由两部分组成:
    1. multi-head attention
    2. mlp
  4. 进入mlp分类头,输出结果。

需要注意的是,block中还是用layer_norm和残差结构。
可以简单写成

# 假设有n个block
while n:x = x + attention(norm(x))x = x + mlp(norm(x))n-=1

前两部我们现在已经完成了,所以接下来只要写一个block,然后重复使用这个block对数据进行处理就可以了。

class MultiHeadAttention(nn.Module):def __init__(self, emb_size, num_heads, dropout):super().__init__()self.emb_size = emb_sizeself.num_heads = num_headshead_dim = dim//num_headsself.scale = head_im**(-0.5) # 按照embedding大小进行缩放self.qkv = nn.Linear(emb_size, emb_size*3)self.dropout = nn.Dropout(dropout)self.projection = nn.Linear(emb_size, emb_size)def forward(self, x, mask = None):# 对于输入的大小为b*n*d的embedding,使用self.qkv变成b*n*(embedding*3)# 然后转变一个shapeB, N, D = x.shapeqkv = self.qkv(x).reshape(B, N, 3, self.num_heads, D//self.num_heads).permute(2,0,3,1,4)# qkv = rearrange(self.qkv(x), 'b n (h d qkv) -> qkv b h n d', h = self.heads, qkv=3)queries, keys, values = qkv[0], qkv[1], qkv[2]# 得到的每个大小都是 batchsize* num_heads* num_words * sub_embeding dim# 然后对q和k进行内积并求sortmaxattn = (queries@keys.transpose(-2,-1)) * self.scale# energy = torch.einsum('bhqd, bhkd -> bhqk', queries, keys)attn = attn.softmax(dim=-1)# 这一步已经拿到softmax的接过了,下一步是和value加权求和out = (attn@values).transpose(1,2).reshape(B, N, D)# out = torch.einsum('bhnn, bhnd -> bhad ', att, values)# out = rearrange(out, "b h n d -> b n (h d)")out = self.projection(out)return out

我们的MLP就是比较常规简单的MLP。

class MLP(nn.Module):def __init__(self, in_features, hidden_features = None, out_feature=None, act_layer=nn.GELU, drop=0):super().__init__()self.fc1 = nn.Linear(in_features, hidden_features)self.act = act_layer()self.fc2 = nn.Linear(hidden_features, out_features)self.dropout = nn.Dropout(drop)def forward(self, x):x = self.f1(x)x = self.act(x)x = self.f2(x)x = self.act(x)return self.dropout(x)

TNT: transformer in transformer

vit中把图像分成不同的patch。自然界中,图像的多样性是很高的,假如你的patch比较大,里面可能存在着很多相似度很高的subpatch。TNT的作者认为patch的划分粒度不够细,因此他将分好的patch再重新分成更多的subpatch。

比较大的patch被称为“visual sentences”, 比较小的subpatch被称为“visual words”。

图中的模型结构看起来也比较好理解。

  • 给你一张输入图像,把它分为n*n个大小为p*p的patch。
    • 每个patch再次划分为n*n个subpatch
    • subpatch通过linear projection进行编码,并加上一个内部的pose embedding。
    • 送入inner transformer block,得到输出结果。
  • patch通过linear projection进行编码,并加上一个cls embedding和pose embedding。
  • patch的embedding和对应subpatch的embedding相加融合在一起。
  • 将合并后的embedding送入outer transformer block。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/9342.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 集成 Redisson分布式锁

Redisson 是一种基于 Redis 的 Java 驻留集群的分布式对象和服务库,可以为我们提供丰富的分布式锁和线程安全集合的实现。在 Spring Boot 应用程序中使用 Redisson 可以方便地实现分布式应用程序的某些方面,例如分布式锁、分布式集合、分布式事件发布和订…

【webrtc】vs2017 重新构建m98

配置了一台13900k的主机,需要重新配置webrtc 构建环境代码已经gclient sync 同步好了,打算重新构建:vs2017 的win10 sdk最大17763 vs2017 环境 set vs2017_install=S:\Program Files (x86)\Microsoft Visual Studio\2017\Communitywin10 SD

数字图像处理实验报告

目录 实验二、图像在空间域上的处理方法 实验三、图像在频率域上的处理方法 实验二、图像在空间域上的处理方法 一、实验目的 了解图像亮(灰)度变换与空间滤波的意义和手段;熟悉图像亮(灰)度变换与空间滤波的MATLA…

【AI机器学习入门与实战】机器学习算法都有哪些分类?

👍【AI机器学习入门与实战】目录 🍭基础篇 🔥 第一篇:【AI机器学习入门与实战】AI 人工智能介绍 🔥 第二篇:【AI机器学习入门与实战】机器学习核心概念理解 🔥 第三篇:【AI机器学习入…

得物社区推荐精排模型演进

1.背景 得物社区是一大批年轻人获取潮流信息、分享日常生活的潮流生活社区。其中用户浏览的信息,进行个性化的分发,是由推荐系统来决策完成的。目前得物社区多个场景接入了推荐算法,包括首页推荐双列流、沉浸式视频推荐、分类tab推荐流、直播…

DOM“文档对象模型”

目录 DOM 1.节点层级 1.2.节点 常用节点 文档节点(document) 元素节点(Element) 属性节点(Attribute) 文本节点(Text) 其他节点 DocumentType Comment DocumentFragment 1.3.节点树…

TCP的三次握手和四次挥手

一、网络七层协议 OSI七层协议模型主要是:物理层(Physical)、数据链路层(Data Link)、网络层(Network)、传输层(Transport)、会话层(Session)、表…

Mvc进阶(下)

Mvc进阶(下) 1.前言2.上次代码弊端1.利用xml建模反射优化1.XMl文件2.对xml建模 3.修改中央控制器 3.再优化1.先优化Action子控制器4.优化传值问题 4.总结 1.前言 虽然前面文章深入解析Java自定义MVC框架的原理与实现讲述了Mvc框架,但是那只能…

联邦聚合(FedAvg、FedProx、SCAFFOLD)

目录 联邦聚合算法对比(FedAvg、FedProx、SCAFFOLD) 解决问题 FedAvg FedProx SCAFFOLD 实验结果 联邦聚合算法对比(FedAvg、FedProx、SCAFFOLD) 论文链接: FedAvg:Communication-Efficient Learning of Deep Networks from Decentralized Data …

高级Android开发人员枯竭,在这个利润丰厚的领域如何蓬勃发展

为什么高级人才供不应求? 技术行业的发展速度非常快,新的技术和工具不断涌现,导致技能需求不断演变。这使得不断更新和学习变得至关重要。行业发展速度超过了教育和培训体系的能力跟进。传统教育往往滞后于最新的技术趋势和实践,…

FreeRTOS学习笔记—任务挂起和恢复

文章目录 一、任务挂起和恢复API函数1.1 vTaskSuspend()函数1.2 vTaskResume()函数1.3 xTaskResumeFromISR()函数 二、任务挂起和恢复2.1 任务1挂起解挂任务22.2 中断中解挂任务1 三、补充内容3.1 FreeRTOS数据类型3.2 中断优先级分组3.3 错误问题 一、任务挂起和恢复API函数 …

深入理解Go语言中的并发编程【27】【Goroutine的使用、定时器、select】

文章目录 Goroutine池worker pool(goroutine池) 定时器定时器 selectselect多路复用 Goroutine池 worker pool(goroutine池) 本质上是生产者消费者模型可以有效控制goroutine数量,防止暴涨需求: 计算一个…