论文阅读——BLIP

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

(1)单模态编码器,它分别对图像和文本进行编码。图像编码器用ViT,并使用附加的 [CLS] 标记来表示全局图像特征。文本编码器与 BERT 相同(Devlin et al., 2019),其中 [CLS] 标记附加到文本输入的开头以总结句子。

(2)基于图像的文本编码器,通过在文本编码器的每个变换器块的自注意(SA)层和前馈网络(FFN)之间插入一个额外的交叉注意(CA)层来注入视觉信息。特定于任务的 [Encode] 标记被附加到文本中,并且 [Encode] 的输出嵌入用作图像-文本对的多模态表示。

(3)基于图像的文本解码器,用因果自注意力层替换基于图像的文本编码器中的双向自注意力层 [Decode] 标记用于表示序列的开始,序列结束标记用于表示序列的结束。

三个损失:

Image-Text Contrastive Loss (ITC)

Image-Text Matching Loss (ITM):

        图像文本匹配损失(ITM)激活图像文本编码器。它的目的是学习图像文本多模态表示,捕获视觉和语言之间的细粒度对齐。 ITM 是一项二元分类任务,其中模型使用 ITM 头(线性层)来预测图像文本对在给定多模态特征的情况下是正(匹配)还是负(不匹配)。

Language Modeling Loss (LM):

        语言建模损失(LM)激活基于图像的文本解码器,其目的是根据给定的图像生成文本描述。它优化了交叉熵损失,训练模型以自回归方式最大化文本的可能性。在计算损失时,我们应用 0.1 的标签平滑。与 VLP 中广泛使用的 MLM 损失相比,LM 使模型具有泛化能力,可以将视觉信息转换为连贯的字幕。

CapFilt:处理网络图像文本对数据大量噪声

我们提出了字幕和过滤(CapFilt),这是一种提高文本语料库质量的新方法。图 3 给出了 CapFilt 的图示。它引入了两个模块:一个用于在给定网络图像的情况下生成字幕的字幕生成器,以及一个用于消除噪声图像文本对的过滤器。字幕生成器和过滤器都是从相同的预训练 MED 模型初始化的,并在 COCO 数据集上单独进行微调。微调是一个轻量级的过程。具体来说,字幕生成器是一个基于图像的文本解码器。它通过 LM 目标进行微调,以解码给定图像的文本。

给定网络图像 Iw,字幕生成器生成合成字幕 Ts,每个图像一个字幕。该过滤器是一个基于图像的文本编码器。它根据 ITC 和 ITM 目标进行了微调,以了解文本是否与图像匹配。该过滤器会去除原始网络文本 Tw 和合成文本 Ts 中的噪声文本,其中如果 ITM 头预测文本与图像不匹配,则文本被认为是噪声文本。最后,我们将过滤后的图像文本对与人工注释对结合起来形成一个新的数据集,我们用它来预训练新模型。

实验:

模型在 PyTorch 中实现,并在两个 16-GPU 节点上进行预训练。图像转换器是从 ImageNet 上预训练的 ViT 初始化的,文本转换器是从 BERTbase 初始化的。

使用 AdamW (Loshchilov & Hutter, 2017) 优化器,权重衰减为 0.05。学习率预热至 3e-4 (ViT-B) / 2e-4 (ViT-L),并以 0.85 的速率线性衰减。我们在预训练期间随机采集分辨率为 224 × 224 的图像,并在微调期间将图像分辨率提高到 384 × 384。我们使用预训练数据集总共 1400 万张图像,包括两个人工注释数据集(COCO 和 Visual Genome )和三个网络数据集(Conceptual Captions 、Conceptual 12M),SBU captions)。我们还尝试了另一个网络数据集 LAION,其中包含 1.15 亿张图像,其中文本噪声较多1。

 CapFilt 可以通过更大的数据集和更大的视觉主干进一步提高性能,这验证了其在数据大小和模型大小方面的可扩展性。

   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/537714.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基础---nginx 启动不了,跟 Apache2 服务冲突

文章目录 查看 nginx 服务状态nginx 启动后 访问页面 127.0.0.1停止 nginx 服务,访问不了页面停止/启动 Apache2 服务,启动 Apache2 页面访问显示正确nginx 莫名启动不了卸载 Apache2 服务器 启动 nginx ,但是总是不能实现反向代理&#xff0…

【C++ 学习】内存管理

1. new / delete 和 malloc / free 的区别? malloc / free 和 new / delete 的共同点:都是从堆上申请空间,并且需要用户手动释放。不同的地方是: malloc 和 free 是函数,new 和 delete 是操作符; malloc 申请的空间不…

如何使用vue定义组件之——父组件调用子组件

首先&#xff0c;我们需要创建两个组件模板template&#xff1a; <template id"father"><div><h3>我是父组件</h3><h3>访问自己的数据:</h3><h3>{{ msg }}</h3></div></template><template id"…

数据结构和算法:栈与队列

栈 栈 &#xff08;stack&#xff09;是一种遵循先入后出逻辑的线性数据结构 把堆叠元素的顶部称为“栈顶”&#xff0c;底部称为“栈底”。 将把元素添加到栈顶的操作叫作“入栈”&#xff0c;删除栈顶元素的操作叫作“出栈”。 栈的常用操作 /* 初始化栈 */ stack<int&g…

HelpLook AI 升级!一键生成SEO设置关键要素

| 现代SEO营销为何选择与AI同行 众多企业面临SEO优化日趋复杂的挑战&#xff0c;投入的时间和资源不断攀升。然而&#xff0c;HelpLook利用AI技术&#xff0c;一键完成SEO关键词和描述的生成&#xff0c;无需额外付费或繁琐操作&#xff0c;轻松提升网站曝光和点击率&#xff…

单目测距的基本介绍和实现原理

单目测距的基本介绍和实现原理 单目测距是一种常用的测量技术&#xff0c;它通过单个摄像头来测量物体与摄像头的距离。在现代科技的推动下&#xff0c;单目测距术正在不断发展和应用于各个领域。本文将分点阐述关于单目测距的重要性、原理和方法、应用领域以及潜在的挑战和发展…

openGauss Call for Meetup 计划正式上线

开源数据库openGauss社区&#xff0c;希望通过开源开放&#xff0c;汇聚更多力量&#xff0c;不断探索科技创新的边界。社区正式推出“openGauss Call for Meetup”计划。 资源面向openGauss社区所有成员开放&#xff0c;无论是企业、SIG 组、用户组、科研院所或其他组织&…

基于Java+SpringBoot+vue+element实现校园闲置物品交易网站

基于JavaSpringBootvueelement实现校园闲置物品交易网站 博主介绍&#xff1a;多年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 ** 作者主页 央顺技术团队** 欢迎点赞 收藏 ⭐留言 文末获取源码联系方式 文章目录 基于…

算法思想总结:二分查找算法

创作不易&#xff0c;感谢三连&#xff01;&#xff01; 一、二分查找算法思路总结 大家先看总结&#xff0c;然后再根据后面的题型去慢慢领悟 二、二分查找&#xff08;easy&#xff09; . - 力扣&#xff08;LeetCode&#xff09;二分查找 思路&#xff1a;&#xff08;模…

猫头虎博主的技术解码:金三银四特辑——面试官问你为什么离职,HR都认可的离职原因,你学会了吗?

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

深信服技术认证“SCCA-C”划重点:信服云托管云

为帮助大家更加系统化地学习云计算知识&#xff0c;高效通过云计算工程师认证&#xff0c;深信服特推出“SCCA-C认证备考秘笈”&#xff0c;共十期内容。“考试重点”内容框架&#xff0c;帮助大家快速get重点知识。 划重点来啦 *点击图片放大展示 深信服云计算认证&#xff08…

Pulsar IO实战

一、引言 今天跟着 官方文档 基于docker玩一把Pulsar IO吧 二、概要 在用户能够轻松的将消息队列跟其他系统(数据库、其他消息系统)一起使用时&#xff0c;消息队列的作用才是最强大的。而Pulsar IO connectors可以让你很轻松的创建、部署以及管理这些跟外部系统的连接&#…