CV论文阅读大合集

YearNameAreamodeldescriptiondrawback
2021 ICMLClip (Contrastive Language-Image Pre-training)contrastive learning、zero-shot learing、mutimodelclip用文本作为监督信号来训练可迁移的视觉模型CLIP’s zero-shot performance, although comparable to supervised ResNet50, is not yet SOTA, and the authors estimate that to achieve SOTA, CLIP would need to add 1000x more computation, which is unimaginable;CLIP’s zero-shot performs poorly on certain datasets, such as fine-grained classification, abstraction tasks, etc; CLIP performs robustly on natural distribution drift, but still suffers from out-of-domain generalisation, i.e., if the distribution of the test dataset differs significantly from the training set, CLIP will perform poorly; CLIP does not address the data inefficiency challenges of deep learning, and training CLIP requires a large amount of data;
2021 ICLRViT (VisionTransformer)在这里插入图片描述将Transformer应用到vision中:simple, efficient,scalable当拥有足够多的数据进行预训练的时候,ViT的表现就会超过CNN,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果
2022DALL-E基于文本来生成模型
2021 ICCVSwin Transformer在这里插入图片描述使用滑窗和层级式的结构,解决transformer计算量大的问题;披着Transformer皮的CNN
2021MAE(Masked Autoencoders)self-supervised在这里插入图片描述CV版的bertscalablel;very high-capacity models that generalize well
TransMed: Transformers Advance Multi-modal Medical Image Classification在这里插入图片描述
I3D
2021Pathway
2021 ICMLVILT视觉文本多模态Transformer性能不高 推理时间快 训练时间特别慢
2021 NeurIPSALBEFalign before fusion 为了清理noisy data 提出用一个momentum model生成pseudo target
2021VLMo融合dual-encoder和fusion-encoder的一种结构;采用stagewise的预训练方式
CoCa

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/159566.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言初学者周冲刺计划】5.1C语言知识点小总结

目录 1知识点一: 2知识点二: 3知识点三: 4代码: 5总结: 1知识点一: 1 C语言中要求对变量作强制定义的主要理由是( )。 便于确定类型和分配空间 2 【单选题】若有定义:int m7; float x…

oracle查询数据库内全部的表名、列明、注释、数据类型、长度、精度等

Oracle查询数据库内全部的表名、列明、注释、数据类型、长度、精度 SELECT a.TABLE_NAME 表名, row_number() over(partition by a.TABLE_NAME order by a.COLUMN_NAME desc) 字段顺序,a.COLUMN_NAME 列名, b.COMMENTS 注释,a.DATA_TYPE 数据类型, a.DATA_LENGTH 长度,DATA_SC…

Linux 安装 RocketMq

RocketMq是阿里出品(基于MetaQ)的开源中间件,已捐赠给Apache基金会并成为Apache的顶级项目。基于java语言实现,十万级数据吞吐量,ms级处理速度,分布式架构,功能强大,扩展性强。 官网…

银行账单转换beancount

用了beancount来记账后,发现每月的账单手动记是一件极其麻烦的事情。 然后再github搜索一通后,有double-entry-generator(https://github.com/deb-sig/double-entry-generator)能转换支付宝/微信的账单,但是没有自己用…

elasticsearch索引按日期拆分

1.索引拆分原因 如果单个索引数据量过大会导致搜索变慢,而且不方便清理历史数据。 例如日志数据每天量很大,而且需要定期清理以往日志数据。例如原索引为sc_all_system_log,现按天拆分索引sc_all_system_log20220902,sc_all_syste…

Linux使用挂载Windows共享文件夹

1、在linux下要挂载windows的共享文件,需要安装cifs-utils软件包。 dpkg -l|grep cifs-utils可以查看是否安装了这个软件包,which mount.cifs可以查看这个软件包安装在哪里。sudo apt-get install cifs-utils可以安装软件包。 2、建立一个目录用来作挂载…

自动驾驶算法(四):RRT*算法讲解与代码实现(基于采样的路径规划)

目录 1 RRT算法和RRT*算法 2 RRT*代码相比于RRT的改进 3 RRT*完整代码 1 RRT算法和RRT*算法 从上篇博客我们可以看出,RRT算法找到最短路径特别快。因为它是一段一段的过去的,但同时它产生的路径也是非常糟糕、随机的只要找到了终点就会结束。 因此我们…

Kafka - 监控工具 Kafka Eagle:实时洞察Kafka集群的利器

文章目录 引言Kafka Eagle简介Kafka Eagle的特点Kafka Eagle的优势使用Kafka Eagle的步骤结论 引言 在现代大数据架构中,Apache Kafka已成为一个不可或缺的组件,用于可靠地处理和传输大规模的数据流。然而,随着Kafka集群规模的不断增长&…

GEE——提取制定多波段影像的属性值(按照制定属性名称和属性值)输出格式为矢量格式

简介: 这里我们很多时候,需要提取制定影像,或者多波段影像制定区域的值,这里有一个问题是我们一般输出的结果仅仅是一个字典类型的对象,而我们不知道如何按照一个矢量输入,这里我们首先要做的就是进行多波段值在制定区域的提取,随后就是分别对其新的字典的键、值的设定…

操作系统 day05(进程)

一,进程的概念 进程和程序的区别 如下图所示:通过多次点击QQ程序,可以打开多个QQ进程 二,进程的组成(更准确的说,应该是进程实体的组成) PCB PCB是进程存在的唯一标志,当进…

数据结构之树(图解)

文章目录 前言一、树是什么?二、树的特点三、树的相关概念四、树的表示方法(孩子兄弟表示法)总结 前言 在学习完线性结构,例如顺序表、链表、栈、队列后,我们要开始学习一个新的数据结构----树 一、树是什么&#xf…

数模国赛——多波束测线问题模型建立研究分析

第一次参加数模国赛,太菜了~~~~意难平 问题一 画出与测线方向垂直的平面和海底坡面的交线构成一条与水平面夹角为𝐀的斜线的情况下的示意图进行分析,将覆盖宽度分为左覆盖宽度和右覆盖宽度,求出它们与海水深度和𝐀、…