DeCLIP 论文阅读

DeCLIP:supervision exists everywhere:a data efficient contrastive language-image pre-training paradigm

贡献:

  1. 论文是为了充分利用单模态和多模态,充分利用单模态特征用自监督(SIMSAM和MLM),多模态用图像文本对比学习实现;

  2. 一个图片的文本描述大部分都是集中在局部区域,作者使用RRC得到一个图像的局部区域进行实现;

  3. 一个图片有多种描述方式,提出用最近邻文本检索得到更多文本监督。(i.e.,对图像的文本描述1的特征向量在队列库中求余弦相似性得到最相似的描述2)

在SLIP基础上新增一个文本域的自监督,即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。

模型

请添加图片描述

  • 图像自监督框架:SimSam
  • 文本自监督框架:MLM,每个句子中随机选择15%的单词,然后,80%的时间用【mask】替换单词,用10%的时间用随机token替换单词,用10%的时间不改变单词。最后得到语言模型对应的token域原始token进行交叉熵loss。
  • 图像-文本模态:原始的 CLIP 不使用文本增强,仅使用随机方形裁剪图像增强,因此需要大量数据。deCLIP使用随机数据增强,相比于原始CLIP,该论文监督信息更多。
  • 在嵌入空间中(具体来说是64K大小的队列)使用了Nearest-Neighbor获得相似性的文本信息。即,论文维护一个队列,在嵌入空间中使用最近邻检索得到一个最相似的文本描述。(隐式存在一对多,提供更好的监督信号,BLIP)

图片里灰色是原本的对比学习,绿的是自监督,橙色也是对比学习,蓝色是Nearest-Neighbor Supervision获得的最相似的文本和两个图片进行对比学习

总损失函数:

在这里插入图片描述

ref

https://zhuanlan.zhihu.com/p/585778761

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/180038.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

修改ubuntu终端目录背景颜色

Ubuntu终端上有部分目录是黄绿色底色,看着很不舒服。如下图所示: 这是由于修改用户权限导致的问题。 通过下面指令可以看到 echo $LS_COLORS | grep "ow" ​ 可以看到ow的默认参数是34:42ow:OTHER_WRITABLE,即其他用户可写权限 …

京东数据挖掘(京东数据采集):2023年Q3电脑行业数据分析报告

近年来,在远程办公、远程教育等需求的刺激下,电脑的销售增长较为显著。不过,随着市场的成熟乃至饱和,电脑销售市场也逐渐出现增长困难、需求疲软等问题。 2023年第三季度,电脑市场的出货量同比下滑。根据鲸参谋电商数据…

pycharm安装库失败

项目场景 pycharm安装第三方库 问题描述 python 安装第三方库总是安装失败 原因分析: 提示:这里填写问题的分析: 1.网络 2.网墙 解决方案: 加个镜像 –trusted-host mirrors.aliyun.com

JavaScript库:jQuery,简化编程

jQuery介绍 官方网站: https://jquery.com jQuery 是一个 JavaScript 库 。极大地简化了 JavaScript 编程,例如 JS 原生代码几十行 实现的功 能, jQuery 可能一两行就可以实现,因此得到前端程序猿广泛应用。(现在处在比较边…

swagger精度丢失,postman调用正常,dameng数据库,long类型字段

问题出现 我们目前在迁移环境,然后往另带一个公司提供的框架里面迁移,然后就出现了很多问题,一个问题是我们返回的某个列表数据,在使用postman 的时候调用正常,但是当前端在制作页面的时候出现问题,并且sw…

【postgresql】CentOS7 安装Pgweb

Pgweb Pgweb是PostgreSQL的一个基于web的数据库浏览器,用Go编写,可在Mac、Linux和Windows机器上运行。以零依赖性的简单二进制形式分布。非常易于使用,并具有适当数量的功能。简单的基于web和跨平台的PostgreSQL数据库浏览器。 特点 跨平台…

JavaScript概述

一、JavaScript简介: JavaScript是互联网上流行的脚本语言,可用于HTML和web,可广泛应用于服务器、PC、笔记本、平板电脑和智能手机等设备。 JavaScript是一种轻量级的编程语言,可插入HTML页面的编程代码,插入HTML页面后…

陪诊小程序|陪诊系统打开陪护行业新世界

随着社会老龄化加剧,以及人们对于医疗服务质量的要求提高,陪诊服务逐渐成为了医疗体系中不可或缺的一部分。而陪诊小程序作为陪诊服务的线上平台,更是受到了广泛的关注。下面小编就给大家讲解下陪诊小程序的功能并阐述其系统优势。 陪诊小程序…

北大腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind

AI4Happiness 投稿 量子位 | 公众号 QbitAI 北大联合腾讯打造了一个多模态15边形战士! 以语言为中心,“拳打脚踢”视频、音频、深度、红外理解等各模态。 具体来说,研究人员提出了一个叫做LanguageBind的多模态预训练框架。 用语言作为与其…

spring cloud alibaba 之哨兵(sentinel)

sentinel (哨兵) 简介 # 官网 - https://spring-cloud-alibaba-group.github.io/github-pages/hoxton/en-us/index.html#_spring_cloud_alibaba_sentinel # github - https://github.com/alibaba/Sentinel/wiki# 简介 - 随着微服务的普及,服务调用的稳定性变得越来…

泛微E9,独立选择框对应数据库表查询

泛微E9,独立选择框对应数据库表查询 文章目录 泛微E9,独立选择框对应数据库表查询步骤一:准备姓名、姓名文本字段:步骤二:获取选择框字段的id:其他 需求描述:假如流程表单有两个字段&#xff0c…

算法-双指针-简单-移动零

记录一下算法题的学习2 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0] 示例 2…