促进通用跨域检索中广义知识的模拟
ProS:促进通用跨域检索中广义知识的模拟
通用跨域检索(UCDR)的目标是在广义测试场景中实现稳健的性能,其中数据在训练过程中可能属于严格未知的域和类别。最近,具有快速调整的预训练模型显示出很强的泛化能力,并在各种下游任务中取得了显著成就,如少镜头学习和视频文本检索。然而,将它们直接应用于UCDR可能不足以处理域转换(即适应不熟悉的域)和语义转换(即转移到未知的类别)。为此,提出了Prompting To Simulate(ProS),这是应用UCDR快速调优的第一种方法。ProS采用两步过程来模拟内容感知动态提示(CaDP),该提示可以影响模型,为UCDR生成通用特征。具体来说,在提示单元学习阶段,引入了两个提示单元,以掩码和对齐的方式分别捕获领域和语义知识。然后,在上下文感知模拟器学习阶段,在模拟测试场景下训练一个内容感知提示模拟器,以生成相应的CaDP。在三个基准数据集上进行的广泛实验表明,新方法在不引入过多参数的情况下实现了最新的性能。新方法已公开,可参考相关代码网址。
跨域检索(CDR)及其广义版本(UCDR),不同骨干网和各种基于提示的方法比较,如图3-5所示。
图3-5 跨域检索(CDR)及广义版本(UCDR),不同骨干网和各种基于提示的方法比较
在图3-5中,(a)跨域检索(CDR)及其广义版本(UCDR)的说明。(b)ProS与UCDR协议下,不同骨干网和各种基于提示的方法△的比较。所有基于提示的方法都使用CLIP作为骨干。新方法取得了实质性的改进,并在性能和可训练参数使用与最新技术之间实现了更好的权衡。
新方法ProS方案如图3-6所示。
图3-6 新方法ProS方案概述
在图3-6中,在提示单元学习阶段,通过屏蔽无关提示,将源数据中的知识捕获到域提示单元DP和语义提示单元SP中。在上下文感知提示模拟阶段,使用掩码操作训练一个上下文感知提示模拟器(CaPS),将提示模板PT动态传递给两个内容感知动态提示(CaDP),以模拟未知域和类别。在检索阶段,使用CaPS生成CaDP,该CaDP影响CLIP图像编码器,将看不见的样本转换为合适的嵌入以进行检索。灰色部分表示屏蔽提示。