ICCV2023 | PTUnifier+:通过Soft Prompts(软提示)统一医学视觉语言预训练

论文标题:Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts

代码:https://github.com/zhjohnchan/ptunifier

Fusion-encoder type和Dual-encoder type。前者在多模态任务中具有优势,因为模态之间有充分的相互作用; 后者由于具有单模态编码能力,擅长单模态和跨模态任务。该论文PTUnifier统一这两种类型(这里的统一包括模型和输入模态)。

一、IDea

医学数据通常是多模态的,视觉数据(例如,放射照相、磁共振成像和计算机断层扫描)和文本数据(例如,放射学报告和医学文本)。在日常临床实践中成对收集的。医学视觉和语言预训练(MedVLP)旨在从大规模医学图像-文本对中学习通用表示,然后将其迁移到各种医疗任务中,有助于解决医疗领域的数据稀缺问题。

由于缺乏单模态编码,融合编码器不能有效地完成单模态任务和跨模态任务,而双编码器由于模态之间的交互不足,在多模态任务中表现不佳,如图1(a)所示。

二、Model(Bridging the Gap)

模型预训练可以表示为:

1、Unifying Inputs via Prompts

通过soft prompts 统一输入,以执行不同类型的任务。工作机制类似于DETR中的查询向量。

Compatibility using Soft Prompts

Scalability of Soft Prompts

构建了一个视觉/文本提示池,而不是 static prompts。prompt的选择取决于input embedding。定义一个视觉提示池V和一个文本提示池T。给定 visual embedding sequence Xv输入或 its textual embedding sequence Xl输入,进行池化操作(例如,平均/最大池化),得到现有模态的查询向量(记为qv或ql),即qv = pooling(Xv)和ql = pooling(Xl)。为了得到缺失模态的prompt,根据查询向量与缺失模态池中所有prompts的相似度得分来选择prompt:

Intuitive Explaination:将可视提示池视为一个查询库,其中存储了用于在缺少一个模态时提取单模态特征的query。

Unifying Multiple Pre-training Objectives

Masked Language Modeling (MLM)

Image-Text Matching (ITM)

Image-Text Contrast (ITC)

三、The Model Architecture

首先将视觉和文本标记映射到嵌入空间(Xv和Xl),这些带有或不带有prompts的token embedding将由相同的backbone Mθ共同处理。

1、Visual and Textual Embeddings

Visual:

Textual:

2、The Backbone Model

该模型可以是一个有效模型(包括单模态编码器和多模态融合模块),也可以是一个有效模型(即单个Transformer模型),特征提取后:

四、Experimental Settings

1、Pre-training Datasets

ROCO、MedICaT、MIMIC-CXR

2、Results

Main Results

现有的研究仅针对单一任务设计,而论文方法通常针对所有视觉和/或语言相关的任务,也就是说,没有针对特定任务进行任何量身定制的调整。

Ablation Study

融合编码器(即MLM和ITM)的目标模型(即ID 3和5)获得比没有它们的其他模型更强大的多模态表征。

双编码器的图像-文本对比学习有助于模型(即id4和id5)学习单模态图像表征和跨模态表征,并且使用ITC目标预训练的模型优于未使用ITC目标预训练的模型。

ITC目标并没有提高单模态文本分类任务的性能。

同时实现两类目标可以促进模型(即ID 5)在所有任务中获得最佳性能,从而证实了融合编码器和双编码器统一研究方向的可行性。

Effects of Soft Prompt

使用不同池大小(范围从0到2048)进行预训练。

(i)虽然池大小的扩大导致参数数量的增加,但与总参数(350M)相比,引入的参数并不太多(少于0.5%);

(ii)所有有Soft Prompt  Pools的模型都比没有Soft Prompt  Pools(即池大小为0)的模型收敛性更好(收敛损失更小),证明了引入提示池的有效性;

(iii)发现设置合适的池大小很重要,当池大小设置为1024时,模型收敛效果最好。这可能是由于池大小控制了在预训练过程中存储的查询信息的数量,而具有大容量的大池可能会“吸收”预训练语料库中的太多噪声。

论文中有意思的是竟然做ITC预训练任务时,把两个模态拆开,分别在soft prompts pools里面找其对应的模态(visual->textual, textual->visual),这样在缺失一个模态的输入的时候,直接在pools中找即可。但是应该有个问题存在,pools中的向量就能准确代表缺失的模态吗?其实在小领域还好,但是在通用领域会不会受限(当然可以通过调节pools size来缓解)?是不是可以像VQ-VAE中使用向量字典的方式来组成缺失的目标对象,而不是直接计算相似度?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/414418.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CentOS 8.5 安装图解

特特特别的说明 CentOS发行版已经不再适合应用于生产环境,客观条件不得不用的话,优选7.9版本,8.5版本次之,最次6.10版本(比如说Oracle 11GR2就建议在6版本上部署)! 引导和开始安装 选择倒计时结…

Spring使用注解管理Bean

引入lib包 Spring对Bean管理的常用注解 Component组件(作用在类上) Spring中提供了Component的三个衍生注解:(功能在目前为止是一致的) Controller WEB层 Service 业务层 Repository 持久层 属性注入的注解:(使用注解注入的方式,可以不用提供set方法) Value 用于注入普…

看透繁花,六大经典台词另有深意

(图源:《繁花》官方微博) 大火的《繁花》,大家看了吗? 变迁的时代,裹挟着市井万象,多舛的命运,缩影了“繁花“时代向前的潮涌潮落。 同在变革的大潮,《繁花》里“上帝…

allegro画PCB如何设置原点

如上图,然后鼠标点击那里,原点就在哪,如果那个位置点不上,就可能超出了你底板的范围,需要设置加大底板面积,设置底板大小的方法如下: 链接: link

Asp.Net期末课程设计——任务展示系统(C#)(mysql或sqlserver)

前言 声明:该文章只是做技术分享,若侵权请联系我删除。!! 感谢大佬的视频: https://www.bilibili.com/video/BV1664y1P7VT/?vd_source5f425e0074a7f92921f53ab87712357b 源码:https://space.bilibili.co…

teracopy下载 3.17版本

最新版本更新时间:2023 年 12 月 3 日 更新日志: 克隆和重新扫描功能。 添加了对 SSE2 处理器的 xxHash 支持。 升级了报告和校验和导出功能。 在测试和验证过程中实现了网络恢复等待功能。 将最大缓冲区容量扩展到 256 MB。 解决了一些小错误并改…

《30天自制操作系统》学习笔记(七)

先体验一下编译仿真方法: 30天自制操作系统光盘代码在下面链接,但是没有编译仿真工具: https://gitee.com/zhanfei3000/30dayMakeOS 仿真工具在下面链接: https://gitee.com/909854136/nask-code-ide 这是一个集成的编译仿真工…

网络安全全栈培训笔记(54-服务攻防-数据库安全RedisHadoopMysqla未授权访问RCE)

第54天 服务攻防-数据库安全&Redis&Hadoop&Mysqla&未授权访问&RCE 知识点: 1、服务攻防数据库类型安全 2、Redis&Hadoop&Mysql安全 3、Mysql-CVE-2012-2122漏洞 4、Hadoop-配置不当未授权三重奏&RCE漏洞 3、Redis-配置不当未授权…

隔夜挂单,快速交易通道,VIP柜台的极速体验!

许多中小散户抱怨,自己每天都在涨停板追这些新股,但从来没有买到过。相反,成交龙虎榜上,能买到秒停新股的常常是一些“涨停板敢死队”的老面孔。难道抢筹这些秒停、“一”字涨停的牛股有什么神器?追击秒停和“一”字板…

CBA对职业发展到底有多重要?速看!

🚀数字化转型,就像一场企业版的“跑男”,需要一个明确的“剧本”来指导每一步!业务架构师就是这场大戏的“编剧”,他们运用业务架构原则和最佳实践,勾勒出完美的“剧情发展”,推动企业走向变革的…

树莓派4B +Ubuntu20.04+ROS1的使用(2)

首先确定一下主机与从机的ip地址(非常重要) 在这次实验中,主机是一台Ubuntu20.04.03系统的台式机,我们间通过这台准备来远程遥控树莓派上的ros1系统,它的ip地址是192.168.230.181 从机是一台搭载Ubuntu20.04桌面版ro…

数学建模.图论最短路径问题

一、概念(本文是对清风网课的总结) 推荐作图网站 有(无)向图的权重邻接矩阵 二、戴克斯特拉算法 缺点: 负权回路: 使用matlab计算最短路径 其他的一些操作 再次强调:本文是作者学习清风网课后的…