【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model(CVPR2024)

  • 基于文本的类感知提示调优的VLM
  • KgCoOp为baseline,进行改进,把 w c l i p w_{clip} wclip进行投影,然后与Learnable prompts进行结合。
    ![[TCPf2.png|600]]

Abstract

近年来,通过可学习的域共享或图像条件的文本tokens,促进生成适用于特定任务的分类器

问题:
这些textual tokens对unseen域具有有限的泛化能力,不能动态地适应测试类的分布

解决:
提出了新的基于文本的类感知提示调优(TCP,Textual-based Class-aware Prompt)。显式地结合关于类的先验知识,增强它们的可辨别性。利用文本知识嵌入(TKE),映射高泛化性的类级文本知识,到类感知文本tokens。通过无缝地将这些类感知提示集成到Text Encoder中,可以生成一个动态的类感知分类器,以增强对不可见域的可辨别性。
推断阶段,TKE动态地生成与unseen类相关的类感知提示,可作为即插即用的模型与现有方法轻松结合。

1 Introduction

图像条件文tokens封装了每个图像的特定知识,特别是测试图像,从而更容易泛化到unseen类。

3 方法

TKE将一般类级的textual embedding转化成类感知提示,然后与Learnable tokens 结合。

3.2 基于文本的类感知提示提示调优

TKE:投影class-level embedding W c l i p W^{clip} Wclip,得到class-aware prompt T
![[TCPg2.png]]

![[TCPg3.png]]

![[TCPg4.png]]

![[TCPg1.png]]

TKE包括两层

  • 下投影层
    使用权重 W d o w n W_{down} Wdown W c l i p W^{clip} Wclip其投成低维特征
  • 上投影层
    使用权重 W u p W_{up} Wup W d w o n W^{dwon} Wdwon其投成高维特征
    得到
    ![[TCPg5.png]]
    再重塑成
    ![[TCPg6.png]]
    插入到文本编码器的中间层

4 实验

作者将其分为tp、vp、dtp、dvp,比较了近年来的方法
在这里插入图片描述

消融实验

  • Prompt长度:M=8最好
  • 不同模板的效果:可学习prompt最好
  • Dmid的作用:128时效果最好
  • 类感知prompt拼接到哪:第8层最好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/699846.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java springboot连接sqlserver使用

pom.xml增加sqlserver驱动 <dependency><groupId>com.microsoft.sqlserver</groupId><artifactId>mssql-jdbc</artifactId><version>9.4.0.jre8</version></dependency>application.yml配置文件 server:port: 9001 #spring: …

Python多任务

进程 1. 进程的概念 一个正在运行的程序或者软件就是一个进程&#xff0c;它是操作系统进行资源分配的基本单位&#xff0c;也就是说每启动一个进程&#xff0c;操作系统都会给其分配一定的运行资源(内存资源)保证进程的运行。 比如:现实生活中的公司可以理解成是一个进程&a…

[笔记] srlua库编译

文章目录 前言一、环境二、编译过程2.1 gcc安装2.2 编译lua2.3 编译srlua库 三、测试srlua库参考总结 前言 一、环境 centos7.9 gcc version 4.8.5 20150623 (Red Hat 4.8.5-44) (GCC) lua5.1源码 srlua 源码 二、编译过程 2.1 gcc安装 yum install gcc这里gcc安装过程和环…

揭秘在线VR展馆,企业如何通过虚拟现实技术增强客户体验和互动?

一、在线VR展馆简介&#xff1a;虚拟展示的未来 在线VR展馆通过虚拟现实技术构建的三维展览空间&#xff0c;让用户能够在任何地点通过网络接入体验沉浸式的展览环境。这种技术运用了先进的3D建模和虚拟现实技术&#xff0c;使观众能够在虚拟世界中自如地浏览和互动。 二、企…

【Linux】解析键盘组合键产生信号的完整过程:从硬件中断到信号发送

前言 每一个了解Linux的都知道这样一个知识&#xff0c;CtrlC组合键能够终止一个进程。 个人了解进程相关知识之后知道&#xff0c;一个进程被终止只会有有三种情况&#xff1a; 代码运行完毕&#xff0c;结果正确代码运行完毕&#xff0c;结果不正确代码运行异常&#xff…

智慧公厕:公共厕所信息化的创新之路

公共厕所是城市建设中不可或缺的一环&#xff0c;但长期以来&#xff0c;由于管理不善和设施落后&#xff0c;公厕成为城市环境中的一大难题。为了解决这个问题&#xff0c;变革式的智慧公厕应运而生。 智慧公厕是一种借助物联网、互联网、大数据、云计算、自动化控制等技术整…

视频号小店应该怎么去做呢?运营步骤分享!建议收藏!

大家好&#xff0c;我是电商小V 视频号小店是一个新推出的项目&#xff0c;目前可以说正处于红利期&#xff0c;也是正处于野蛮生长的阶段&#xff0c;平台现在对视频号的扶持可以说是非常大的&#xff0c;对于新入驻的商家也是非常友好的&#xff0c;所以说现在入驻是最好的时…

AVL树、红黑树

数据结构、算法总述&#xff1a;数据结构/算法 C/C-CSDN博客 AVL树 定义 空二叉树是一个 AVL 树如果 T 是一棵 AVL 树&#xff0c;那么其左右子树也是 AVL 树&#xff0c;并且 &#xff0c;h 是其左右子树的高度树高为 平衡因子&#xff1a;右子树高度 - 左子树高度 创建节点…

解锁AI写作新纪元的文心一言指令

解锁AI写作新纪元的文心一言指令 在人工智能&#xff08;AI&#xff09;飞速发展的今天&#xff0c;自然语言处理&#xff08;NLP&#xff09;技术取得了显著的进步。文心一言&#xff0c;作为NLP领域的一颗璀璨明星&#xff0c;以其强大的文本生成和指令理解能力&#xff0c;为…

【优选算法】——Leetcode——611. 有效三角形的个数

目录 ​编辑 1.题目 2 .补充知识 3.解法⼀&#xff08;暴⼒求解&#xff09;&#xff08;可能会超时&#xff09;&#xff1a; 算法思路&#xff1a; 算法代码&#xff1a; 4.解法⼆&#xff08;排序双指针&#xff09;&#xff1a; 算法思路&#xff1a; 以输入: nums …

Python 全栈体系【四阶】(四十二)

第五章 深度学习 九、图像分割 3. 常用模型 3.2 U-Net&#xff08;2015&#xff09; 生物医学分割是图像分割重要的应用领域。U-Net是2015年发表的用于生物医学图像分割的模型&#xff0c;该模型简单、高效、容易理解、容易定制&#xff0c;能在相对较小的数据集上实现学习…

45.WEB渗透测试-信息收集-域名、指纹收集(7)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;计算机王-CSDN博客 WEB指纹&#xff1a;Web指纹也叫web应用指纹。由于所使用的工具、技术…