ViT, Transformer架构出圈到cv

news/2025/2/22 0:39:02/文章来源:https://www.cnblogs.com/tfiyuenlau/p/18727902

一、技术背景

视觉识别的挑战与机遇

在Vision Transformer(ViT)提出之前,卷积神经网络(CNNs),如ResNet和VGG,主导了视觉识别领域。然而,随着Transformer在自然语言处理领域的成功,研究者开始探索其在图像识别中的潜力。ViT借鉴了Transformer的核心理念——自注意力机制,以全新的视角重新定义了图像识别任务。

数据集大小的重要性

为了评估ViT在不同规模数据集上的表现,研究团队在三个不同大小的数据集上进行了实验:ImageNet、ImageNet-21k以及JFT-300M。结果显示,较大的数据集对ViT性能的提升至关重要。特别是在JFT-300M上预训练时,大型ViT模型的表现显著优于小型模型,并且超过了基于ResNet的模型。

二、核心创新

自注意力机制的应用

ViT的核心是将图像分割成固定大小的块(patch),然后像文本序列一样处理这些块。每个块通过线性嵌入映射到一个向量空间,再加上位置嵌入后输入到标准Transformer编码器中。这种设计使得模型能够学习到全局依赖关系,而不是局限于局部信息,这是传统CNN所不具备的能力。

ViT模型架构

模型配置与超参数选择

ViT有几种不同的变体,包括ViT-B/16, ViT-L/16, 和 ViT-H/14等,分别对应基础(Base)、大(Large)和超大(Huge)版本。它们之间的主要区别在于模型深度和隐藏层维度。此外,对于不同大小的数据集,研究人员调整了学习率、权重衰减等超参数,以优化模型性能。

二、实验设计分析

ImageNet上的表现

根据实验结果,在ImageNet上,ViT-B/16达到了81.072%的Top-1准确率,而ViT-L/16和ViT-H/14则分别达到了79.662%和88.552%。值得注意的是,当使用更大的数据集进行预训练时,这些模型的性能得到了进一步提升,尤其是ViT-H/14在ObjectNet基准测试中实现了61.7%的Top-1准确率。

模型 Top-1准确率 (%) Top-5准确率 (%) 参数量 (百万)
ResNet50 80.858 95.434 25.6
ViT-B/16 81.072 95.318 86.6
ViT-L/16 79.662 94.638 304.3
ViT-H/14 88.552 98.694 633.5

小样本学习能力

在小样本学习(few-shot learning)设置下,ViT同样表现出色。相比于传统的ResNet模型,ViT不仅能在少量标注数据的情况下快速适应新任务,而且随着训练样本数量的增加,其性能优势更加明显。

四、领域影响

学术界与工业界的反响

ViT的成功激发了大量后续研究工作,包括但不限于改进的ViT变种,如DeiT(Data-efficient image Transformers),以及将其应用于其他视觉任务,例如目标检测和语义分割。同时,ViT也被广泛应用于工业界,成为许多计算机视觉系统的重要组成部分。

对未来研究方向的影响

ViT展示了非卷积结构在图像识别中的巨大潜力,推动了更多关于如何更好地结合自注意力机制与传统卷积操作的研究。此外,ViT还促使研究者重新思考模型架构设计的基本原则,强调了数据规模在训练高效视觉模型中的重要性。


作者注:本文引用的所有图表均来自原论文,具体实现细节可以参考PyTorch官方文档。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/887367.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s面

题1:Kubernetes Service 都有哪些类型? 通过创建Service,可以为一组具有相同功能的容器应用提供一个统一的入口地址,并且将请求负载分发到后端的各个容器应用上。其主要类型有: ClusterIP:虚拟的服务IP地址,该地址用于Kubernetes集群内部的Pod访问,在Node上kube-proxy通…

DP优化

# DP优化 动态状态 一个转移只用到很小的一部分状态,则不断刷新状态,使得其只与我需要的同阶。 例题:P3188 [HNOI2007] 梦幻岛宝珠 前缀和优化 就是枚举的值存下来,以防止重复的枚举。 例题:2024.10.3T3 Kanade的水杯60分 路径化DP 将一个二维的、仅仅是在相邻位置进行转移…

DelayQueue的take方法底层原理

一、DelayQueue的take()方法底层原理 DelayQueue 的 take 方法是其核心方法之一,用于从队列中获取并移除延迟时间到期的元素。如果队列为空或没有延迟到期的元素,调用 take 方法的线程会阻塞,直到有元素到期 1、take 方法的核心逻辑 take 方法的主要逻辑可以分为以下几个步骤…

【模拟电子技术】43-44-波形发生和转换电路

【模拟电子技术】43-44-波形发生和转换电路 利用正弦波和单限比较器,可以做出占空比可调的方波。但在这里老师用另一种思路来产生方波,利用滞回比较器,但是滞回比较器充放电的速度是很快的,我们需要利用电容来控制充放电速度,才可以控制时间周期T。波形中的T利用基础电路中…

tcp 串口并存客户端

需要用的包:把之前的tcp修改成控件 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Net.Sockets; using System.Text; using System.Threading.Tasks; using Syst…

使用streamlit创建一个产品指标与排名看板【2】创建一个使用sidebar+exec管理的多页面应用

1. Streamlit常见的多页面管理形式pages文件夹形式的多页面应用 switch_page或者page_link跳转 sidebar+exec形式开始时使用的方法1,使用文件结构和文件名称管理多页面,页面内容可以不需要为导航专门再写东西,非常便捷。随着使用,缺点也很明显,无法再定义导航栏中的页面名…

基于FOC控制器的BLDC无刷直流电机控制系统matlab编程与仿真

1.课题概述基于FOC控制器的BLDC无刷直流电机控制系统matlab编程与仿真,使用MATLAB编程实现,包括FOC控制器,clark,park等,不使用simulink建模。仿真输出三相电流,电机转速以及转子角度。2.系统仿真结果 3.核心程序与模型 版本:MATLAB2022a%矢场定向控制 function [A,B,C…

DelayQueue 底层原理

一、DelayQueue 底层原理 DelayQueue是一种本地延迟队列,比如希望我们的任务在5秒后执行,就可以使用DelayQueue实现。常见的使用场景有:订单10分钟内未支付,就取消。缓存过期后,就删除。消息的延迟发送等。但是DelayQueue是怎么使用的?底层原理是什么样的?如果有多个任务…

基于Affine-Sift算法的图像配准matlab仿真

1.算法运行效果图预览 (完整程序运行后无水印)Affine-Sift算法 Sift算法 2.算法运行软件版本 MATLAB2022A3.部分核心程序 (完整版代码包含操作步骤视频)figure; subplot(121);imshow(img1s);title(原始图片1); subplot(122);imshow(img2s);title(原始图片2); %计算图片的大…

【H2O系列】包括人形机器人WBC相关论文小结

1. 前言 这篇博客主要用于记录包括人形机器人WBC或locomotion相关论文小结。 一方面便于日后自己的温故学习,另一方面也便于大家的学习和交流。 如有不对之处,欢迎评论区指出错误,你我共同进步学习! PS:主要是备忘,不然看过就忘了。。。(汗 2. 正文 先看数据集或者说动捕…

设计测试用例方法-场景法

一、场景法: 场景法主要是针对测试场景类型的,也称场景流程分析法。 流程分析是将软件系统的某个流程看成路径,用路径分析的方法来设计测试用例。根据流程的顺序依次进行组合,使得流程的各个分支都能走到 案例1:购物流程案例2:离职流程案例3:atm机二、流程分析步骤: 1.画…