关于VIT（Vision Transformer）的架构记录-编程知识

关于VIT（Vision Transformer）的架构记录

news/2025/4/2 15:36:31/文章来源:https://blog.csdn.net/m0_61949623/article/details/136122852

在VIT模型设计中，尽可能地紧密遵循原始的Transformer模型（Vaswani等人，2017年）。这种刻意简化的设置的一个优势是，可扩展的NLP Transformer架构及其高效的实现几乎可以即插即用。

图：模型概述。我们将图像分割为固定大小的补丁，线性嵌入每个补丁，添加位置嵌入，并将结果向量序列馈送到标准Transformer编码器中。为了进行分类，我们采用了添加额外可学习的“分类标记”的标准方法。Transformer编码器的插图灵感来自Vaswani等人（2017年）。

原文这段话解释了VIT的架构，我们假设H=W=224,P=16。

那么我们首先将224*224*16的x变成196*768。

然后经过一个线性层，其中D=768(可以变，这是transformer架构的参数），还是196*768。

加一个cls额外token，变成197*768。

然后位置嵌入一下，还是196*768。

得到的嵌入向量作为编码器的输入。

公式是这些，transformer内部的我就不介绍了，可以看attention is all you need 这篇论文。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/470142.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

「优选算法刷题」：和可被K整除的子数组

「优选算法刷题」：和可被K整除的子数组

一、题目给定一个整数数组 nums 和一个整数 k ，返回其中元素之和可被 k 整除的（连续、非空） 子数组的数目。子数组是数组的连续部分。示例 1： 输入：nums [4,5,0,-2,-3,1], k 5 输出：7 解释&…

阅读更多...

《合成孔径雷达成像算法与实现》Figure6.13

《合成孔径雷达成像算法与实现》Figure6.13

clc clear close all参数设置距离向参数设置 R_eta_c = 20e3; % 景中心斜距 Tr = 2.5e-6; % 发射脉冲时宽 Kr = 20e12; % 距离向调频率 alpha_os_r = 1.2; % 距离过采样率 Nrg = 320; % 距离线采样数 …

阅读更多...

多模态基础---BERT

多模态基础---BERT

1. BERT简介 BERT用于将一个输入的句子转换为word_embedding，本质上是一个transformer的Encoder。 1.1 BERT的两种训练方法预测被遮挡的单词预测两个句子是否是相邻的句子 1和2是同时训练的 1.1 BERT的四种用法预测句子的类别：输入一个句子&…

阅读更多...

鸿蒙开发系列教程（二十一）--轮播处理

鸿蒙开发系列教程（二十一）--轮播处理

轮播处理 Swiper本身是一个容器组件，当设置了多个子组件后，可以对这些子组件进行轮播显示在自身尺寸属性未被设置时，会自动根据子组件的大小设置自身的尺寸参数： 通过loop属性控制是否循环播放，该属性默认值为tr…

阅读更多...

【深入理解DETR】DETR的原理与算法实现

【深入理解DETR】DETR的原理与算法实现

1 DETR算法概述 ①端到端 ②Transformer-model 之前的方法都需要进行NMS操作去掉冗余的bounding box或者手工设计anchor， 这就需要了解先验知识，增加从超参数anchor的数量， 1.1 训练测试框架一次从图像中预测n个object的类别训练阶段我们…

阅读更多...

【C语言】指针练习篇（下），深入理解指针---指针练习题【图文讲解,详细解答】

【C语言】指针练习篇（下），深入理解指针---指针练习题【图文讲解,详细解答】

欢迎来CILMY23的博客喔，本期系列为【C语言】指针练习篇（下），深入理解指针---指针练习题【图文讲解,详细解答】，图文讲解指针练习题，带大家更深刻理解指针的应用，感谢观看，支持的可以…

阅读更多...

企业计算机服务器中了mkp勒索病毒怎么办？Mkp勒索病毒解密处理

企业计算机服务器中了mkp勒索病毒怎么办？Mkp勒索病毒解密处理

随着网络技术的不断发展，企业的生产运营也加大了步伐，网络为企业的生产运营提供了强有力保障，但网络是一把双刃剑，给企业带来便利的同时也为企业带来了严重的数据威胁。春节期间，云天数据恢复中心接到很多企业的值班人…

阅读更多...

CCF编程能力等级认证GESP—C++2级—20231209

CCF编程能力等级认证GESP—C++2级—20231209

CCF编程能力等级认证GESP—C2级—20231209 单选题（每题 2 分，共 30 分）判断题（每题 2 分，共 20 分）编程题 (每题 25 分，共 50 分)小杨做题小杨的 H 字矩阵参考答案单选题判断题编程题1编程题2 …

阅读更多...

嵌入式中全面解析 SPI 通信协议方法

嵌入式中全面解析 SPI 通信协议方法

SPI 的英文全称为 Serial Peripheral Interface，顾名思义为串行外设接口。SPI 是一种同步串行通信接口规范，主要应用于嵌入式系统中的短距离通信。该接口由摩托罗拉在20世纪80年代中期开发，后发展成了行业规范。 SPI 是一种高速的、全双工的…

阅读更多...

第三十回张都监血溅鸳鸯楼武行者夜走蜈蚣岭-python可接受任意数量参数的函数

第三十回张都监血溅鸳鸯楼武行者夜走蜈蚣岭-python可接受任意数量参数的函数

武松回到孟州城，来到张都监后花园墙外，这是一个马院，问清楚后槽张团练他们三人还在鸳鸯楼吃酒，直接一刀杀了。武松从后门这里爬过墙，来到了厨房，将两个还在服侍的丫环杀了。武松认得路，蹑手蹑…

阅读更多...

Photoshop 中的“彩蛋”

Photoshop 中的“彩蛋”

在 Photoshop 中隐藏了几个“彩蛋” Easter Eggs，是开发者留下的小秘密或玩笑功能，也许是他们在紧张的开发过程中的一种自我调节吧，就如复活节彩蛋一样，同样也可以给 Photoshop 的用户们带来一点小“惊喜”。这些彩蛋通常以有趣的…

阅读更多...

C语言—数组一维(含冒泡排序)

C语言—数组一维(含冒泡排序)

1.用数组存储10个整型数，通过键盘输入一个数，找出该数在数组中的下标值； /*1.用数组存储10个整型数，通过键盘输入一个数，找出该数在数组中的下标值；*/#include <stdio.h>int main(void) {int nums[…

阅读更多...

推荐文章

最新文章