基于Adapter用CLIP进行Few-shot Image Classification

文章目录

  • 【ECCV 2022】《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》
  • 【NeuIPS 2023】《Meta-Adapter: An Online Few-shot Learner for Vision-Language Model》


【ECCV 2022】《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》

\quad 先来说一些Few-shot 分类任务是干嘛的:在只有很少数量的训练样本(通常是很小的数据集,N-way K-shot)的情况下,模型需要对新的、未见过的类别进行分类。比如,在下图的Tip-Adapter网络结构中,输入是N-way K-shot的图像和labels(文本),将他们输入到网络中,需要对未见过的test image进行分类,也就是在这些类别中找到它属于的类别。
\quad 再来说一下CLIP-Adapter是怎么做的。与之前的prompt tuning(CoOp)方法不同,CLIP-Adapter提出用特征适配器来适应视觉语言模型。CLIP Adapter仅在视觉或语言主干的最后一层之后添加了两个额外的线性层,并通过残差连接将原始Zero-Shot视觉或语言嵌入与相应的网络调整特征混合。通过这种“残差样式混合”,CLIP Adapter可以同时利用原始CLIP中存储的知识 和来自Few-Shot训练样本的新学习的知识 。下图是CLIP-Adapter与之前方法的对比,Av()和At()是两个MLP,W和f分别是分别是CLIP生成的文本(label)特征和图像特征。两者经过MLP后再连接,之后再预测。可以看出,这个范式是需要训练的。
在这里插入图片描述
\quad Tip-Adapter这篇文章认为,CoOp和CLIP-Adapter为了fine-tuning参数,会引入额外的计算资源,因此本文的目的在于设计一种training-free的few-shot分类方法。
在这里插入图片描述

\quad Tip-Adapter其实就是一个training-free clip-adapter,它使用cache model中的数据对分类器进行初始化。对于Few-shot的样本,使用CLIP等预训练的模型对他们进行编码,得到的特征作为Cache Model的Keys和Values。
\quad 对于test image,使用CLIP分别提取它的图像特征和文本特征。图像特征当作query,在cache model中找寻Few-shot knowledge中的相似信息,然后乘以一个稀疏α与CLIP‘s的知识进行残差连接,进行最后的预测。

【NeuIPS 2023】《Meta-Adapter: An Online Few-shot Learner for Vision-Language Model》

一、动机
\quad 对比视觉语言预训练(如CLIP)在建模开放世界的视觉概念方面显示出了令人印象深刻的潜力,这有利于多种视觉任务,包括图像识别和开放词汇感知。通过构建基于视觉类别的提示,CLIP显示了有效的few-shot图像分类能力和对看不见的数据的泛化能力。近年来,基于CLIP的few-shot learning已经获得了越来越多的研究关注。受feature adapters的成功(《Parameter-efficient transfer learning for nlp》)和NLP的prompt tuning的启发,一系列针对CLIP的few-shot方法被提出。
\quad 根据是否需要对unseen类别的few-shot samples进行微调,用于CLIP的Few-shot learning methods可以被分为 offline 和 online 两类方法。offline 方法通过参数优化从few-shot samples中提取知识。即,面对新的数据时,offline 方法需要微调,online 方法不需要微调。离线学习的典型案例是CoOp和CoCoOp,它们通过对few-shot samples进行微调,用learnable continuous tokens取代了CLIP中hand-crafted templates。此外,CLIP-Adapter过从few-shot样本中学习任务特定的知识,为CLIP引入feature adapters。尽管这些额外的组件产生了很有前途的few-shot学习能力,他们也面临着额外的训练开销,并容易极大地过拟合到某一数据分布中。
\quad 为了消除训练开销,一种在线学习(无需微调)方法,叫做Tip-Adapter被提出。该方法提出了一种手工制作的调制功能,可以调整类别嵌入和少镜头视觉嵌入之间的比例。该方法提出了一种hand-crafted modulation function,可以调整category embeddings和few-shot visual embeddings之间的比例。它可以无需微调从few-shot samples中获取知识,并展现出了相对于zero-shot方式的显著提升。但是,由于其复杂的超参数搜索方案,这篇文章发现Tip-Adapter仍然倾向于过拟合到观测数据的分布上,导致有限的泛化能力。因此,与以往的方法不同,这篇试图探索一种新的感知方法:learning an online few-shot learner for CLIP via meta-learning。(即通过元学习,学习一个无需微调的few-shot learner。这种方式很好,即用了few-shot samples,又用了meta-learning,还无需微调。)
\quad 为了实现如此,作者提出了一个Meta-Adapter,用一个 lightweight residual-style network 替换 Tip-Adapter中的 hand-crafted modulation function and searching scheme。offline few-shot learning methods面对unseen类别的few-shot 样本时,需要额外的微调。相反,这篇文章利用了meta-testing mechanism,因此模型的训练和测试数据的类别可以不同。通过使用有限数量的few-shot数据,Meta-Adapter可以被训练以实现few-shot学习能力,它可以进一步泛化到其他unseen数据,并在线地从few-shot samples中提取知识。
\quad 为了实现高效,Meta-Adapter有一个基于gated multi-head attention mechanism的轻量级网络来构造。这个过程可以看作是一个可学习的滤波器,以fine由few-shot图像引导的category embeddings。因为Meta-Adapter不需要额外的微调,它只比zero-shot方式多一点计算量。相对于Tip-Adapter,他缓解了过拟合问题,并展现出了更强的跨数据集泛化性。此外,Meta-Adapter是简单的,可以作为一个即插即用的模块应用到多种CLIP-based方法中,使其成为针对许多open-vocabulary下游任务的versatile solution(通用解决方案)。
\quad 为了验证Meta-Adapter的泛化性,这里执行了一系列的消融实验,包括cross-category generalization within a certain dataset、cross-dataset generalization、cross-task generalization。下图是一些和Tip-Adapter的对比结果。
在这里插入图片描述
二、相关工作
2.1 Vision-Language Model Adaption
\quad 最近的许多工作集中在探索将视觉语言模型adapting下游任务的有效方法,他们可以被分为prompt-tuning methods和feature adapters methods。我们这里主要关注feature adapters methods, CLIP-Adapter 和 Tip-Adapter执行residual feature blending来整合few-shot knowledge和CLIP’s zero-shot knowledge。它们保持CLIP的整体参数被冻结,然后微调一个可接受的小数量的额外权重,这在few-shot图像分类任务上展现出了卓越的结果。此外,通过使用few-shot knowledge来初始化线性权值,Tip-Adapter可以进一步呈现出具有更好性能的无训练方式。然而,这些方法存在过拟合的问题,特别是当source数据集和target数据集之间的domain gap很大时。
2.2 Meta-Learning
\quad 元学习的一个简单解释是“learning-to-learn”,它对应于通过搜索最适合给定task family的算法(归纳偏差)来改进泛化。与此相反,传统的机器学习算法通过随着来自某个单一任务的更多的数据而得到改进。通常,元学习是对从一个任务族中采样的学习实例进行的,这将模拟一个基础学习算法,在从这个任务族中采样的新任务上表现良好。在将视觉语言模型适应下游任务的背景下,元学习可以看作是学习一般的微调算法,在不同的任务或数据集上带来一致的收益。

三、方法
在这里插入图片描述

\quad 在图像分类任务中,logits 通常表示模型对每个可能类别的置信度或分数。
\quad 作者认为,Tip-Adapter严重依赖在target dataset上的超参数搜索,这使它容易在某个数据分布内进行过拟合,并限制其分布外泛化的能力。
\quad 因此,这篇文章抛弃了Tip-Adapter的handcraft modulation function和searching strategy。主要核心点在于一个Meta-Adapter。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/192326.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Redis实现分布式锁

Hi, I’m Shendi 使用Redis实现分布式锁 需求场景 需要使用到分布式锁的场景非常多,例如抢单等并发场景,这里举一个例子。 有一个商品,限量出售100个,一个用户下单,数量就减少一个,当剩下最后一个时&…

Unity在Windows选项下没有Auto Streaming

Unity在Windows选项下没有Auto Streaming Unity Auto Streaming插件按网上说的不太好使最终解决方案 Unity Auto Streaming插件 我用的版本是个人版免费版,版本号是:2021.2.5f1c1,我的里边Windows下看不到Auto Streaming选项,就像下边这张图…

基于猕猴感觉运动皮层Spike信号的运动解码分析不同运动参数对解码的影响

公开数据集中文版详细描述参考前文:https://editor.csdn.net/md/?not_checkout1&spm1011.2124.3001.6192神经元Spike信号分析参考前文:https://blog.csdn.net/qq_43811536/article/details/134359566?spm1001.2014.3001.5501神经元运动调制分析参考…

CUDA编程一、基本概念和cuda向量加法

目录 一、cuda编程的基本概念入门 1、GPU架构和存储结构 2、cuda编程模型 3、cuda编程流程 二、cuda向量加法实践 1、代码实现 2、代码运行和结果 有一段时间对模型加速比较感兴趣,其中的一块儿内容就是使用C和cuda算子优化之类一起给模型推理提速。之前一直…

HAL库STM32串口开启DMA接收数据

STM32CubeMx的配置 此博客仅仅作为记录,这个像是有bug一样,有时候好使,有时候不好,所以趁现在好使赶紧记录一下,很多地方用到串口接收数据,DMA又是一种非常好的接收方式,可以节约CPU的时间&…

Unity - Cinemachine

动态获取Cinemachine的内部组件 vCam.GetCinemachineComponent<T>() 动态修改Cinemachine的Transposer属性 var vCamComp transfrom.GetComponent<CinemachineVirtualCamera>(); var transposerComp vCamComp.GetCinemachineComponent<CinemachineTransposer&…

2023最新最全【OpenMV】 入门教程

1. 什么是OpenMV OpenMV 是一个开源&#xff0c;低成本&#xff0c;功能强大的 机器视觉模块。 OpenMV上的机器视觉算法包括 寻找色块、人脸检测、眼球跟踪、边缘检测、标志跟踪 等。 以STM32F427CPU为核心&#xff0c;集成了OV7725摄像头芯片&#xff0c;在小巧的硬件模块上&a…

我们应该如何理解Java集合框架的关键知识点?

我们应该如何理解Java集合框架的关键知识点&#xff1f; java集合是教存取数据的一个容器&#xff0c;涵盖了各种存和取的方式&#xff0c;应用在不同的工作场景中&#xff0c;要想了解java集合的相关知识&#xff0c;建议先好好学习一下数据结构这本书。最近很多小伙伴找我&am…

使用Lychee搭建个人图片存储系统并进行远程访问设置实现公网访问本地私人图床

文章目录 1.前言2. Lychee网站搭建2.1. Lychee下载和安装2.2 Lychee网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4.公网访问测试5.结语 1.前言 图床作为图片集中存放的服务网站&#xff0c;可以看做是云存储的一部分&#xff0c;既可…

qt library创建和使用

1、创建library 2、修改library中的代码 3、把library进行编译&#xff0c;编译后会生成相关文件 4、把编译后的文件拷贝到主程序目录下面。 5、并把library中的testlib头文件拷贝到主程序&#xff0c;并在pro文件加入&#xff08;这里在后面使用library中函数有关&#xff0…

【C++】类和对象(7)--友元, static成员

目录 一 友元 1 友元概念 2 友元函数 3 友元类 二 static成员 1 概念 2 用法 3 static成员特性 4 例题 一 友元 1 友元概念 友元提供了一种突破封装的方式&#xff0c;有时提供了便利。但是友元会增加耦合度&#xff0c;破坏了封装&#xff0c;所以 友元不宜多用。 …

Vue3 函数式弹窗

运行环境 vue3vitetselement-plus 开发与测试 1. 使用h、render函数创建Dialog 建议可在plugins目录下创建dialog文件夹&#xff0c;创建index.ts文件&#xff0c;代码如下 import { h, render } from "vue";/*** 函数式弹窗* param component 组件* param opti…