Attention在视觉的作用 使其关注到所值得关注的。 ViT(Vision transformer) 比如说图像是一个30x30x3的大小,可以将其拆分成9个10x10x3的部分,每个部分可以继续将10x10x3的部分拆解成300x1的向量来代表自己。(通常情况下,并不是300x1,这里只是方便理解怎么去生成向量) L是执行的次数,也就是说transformer不只做了一次。 其中+号是指类似ResNet中的残差链接操作。