EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读

文章目录

  • 前言
  • 一、摘要
  • 二、引言
  • 三、贡献
  • 四、模型方法
  • 五、论文链接
  • 总结


前言

最近,我一直在搞多模态大模型相关工作,也深知CLIP结构重要性,而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick,实现优越CLIP模型的方法,恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此,我将在本博客对EVA-CLIP论文进行解读。


一、摘要

对比图形文本预训练模型,简称CLIP,因其在多个场景潜力受到很多人关注。在这篇文章,我们提出一系列EVA-CLIP模型,显著提高CLIP训练性能与效果。我们方法包含新的学习表征、优化器和增强,使EVA-CLIP实现更高性能,与先前相同参数下的CLIP模型相比,且更少训练成本。明显的,我们最大5B参数模型在9B课件样本实现82%zero-shot top-1精度在ImageNet-1K val数据上。更小430million参数和6B可见样本在ImageNet-1K val数据上实现80.4%zero-shot top-1精度。为了促进开放存取和开放研究,我们向社区发布了完整的EVA-CLIP代码。

在这里插入图片描述

二、引言

CLIP模型是一个很强的视觉语言基准模型,通过图像文本对比学习在大规模数据上预训练学习丰富视觉特征表达。CLIP模型显示了稳定的zero-shot迁移,能增强木多模态和单模态视觉任务,列如AI生成应用包含[41,20,32,45].尽管CLIP有很重要意义,但CLIP模型因其高计算成本和训练不稳定问题构成一个挑战。

在这篇文章,我们提出EVA-CLIP模型,一系列模型提供灵活、有效解决CLIP训练问题。我们方法包含一系列技术,能减少训练成本,使其稳定训练和提高泛化性能,包含CLIP预训练初始化EVA[20,19]方法,LAMB[52]优化器方法,随机drop 输入tokens[33]方法,和加速trick叫flash attention[15]方法。在这些技术下,我们能极大稳定CLIP模型训练,减少计算成本和改善性能。之后描述就是摘要实验结果。

三、贡献

集成众多论文一系列trick,减少CLIP模型训练成本、训练稳定、提供性能与泛化。

四、模型方法

该模型是对CLIP进行一系列trick优化其训练方法,至于众多优化方法来源不同文章方法,我将其罗列如下,至于更深入理解可自习根据论文查看。

CLIP初始化借鉴:
Exploring the limits of masked visual representation learning at scale
A visual representation for neon genesis

优化器借鉴:
Large batch optimization for deep learning: Training bert in 76 minutes

drop token借鉴:
Scaling language-image pre-training via masking

加速flash attention借鉴:
Flashattention: Fast and memory-efficient exact attention with io-awareness

五、论文链接

该论文有部分注释,下载链接如下:
链接:https://pan.baidu.com/s/1osN_qmRyrrMdQQ0S9GWVRA
提取码:clip


总结

一系列模型改善,使用其它模型系列方法改善CLIP训练的论文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/345916.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MIT 6.S081】2020, 实验记录(3),Lab: page tables

目录 TaskTask 1: Print a page table Task Task 1: Print a page table 该实验需要增加一个 vmprint 函数,用于打印一个 page table,实现过程可以参考 vm.c 文件中的 freewalk() 函数。 在 defs.h 中增加 vmprint 的定义: void …

5.3 Verilog 带参数例化

5.3 Verilog 带参数例化 分类 Verilog 教程 关键词: defparam,参数,例化,ram 当一个模块被另一个模块引用例化时,高层模块可以对低层模块的参数值进行改写。这样就允许在编译时将不同的参数传递给多个相同名字的模块…

考研经验总结——目录

文章目录 一、写作顺序二、个人情况说明三、读评论四、一些小牢骚五、一些注意事项(持续更新) 一、写作顺序 我将准备从三个阶段开始介绍吧 考研前考研中考研后(也就是现在我的这种情况) 考研前我会分为:数学、专业…

MOE介绍 混合专家模型

GShard arxiv链接 GShard 模型架构图: 参考GShard论文笔记(1)-MoE结构可知,MOE具备以下几种特点: 改造了原本的FFN层,变成Gaten个FFN层。n个FFN层的训练数据集不同。推理时会计算token与每个FFN的匹配…

如何为数据保护加上“安全锁”?

伴随着数字经济的日趋活跃,数据安全和隐私保护成为了各国政府和企业都十分重视的问题,纷纷加强了数据安全防护。但实际上,近几年数据泄露问题接连不断,虽然没有造成严重的后果,但也足以证明目前数据安全防护的紧迫性。…

Pytest测试 —— 如何使用属性来标记测试函数!

在软件开发领域,单元测试是确保代码质量和可维护性的关键一环。随着项目的不断发展,测试用例的管理变得愈发复杂,而一些测试可能需要特殊的处理、环境或者标记。在Python中,我们可以通过使用属性(Attribute&#xff09…

半导体抛光用PFA容量瓶耐强酸碱定容瓶

PFA容量瓶又称可溶性聚四氟乙烯容量瓶、特氟龙容量瓶容量瓶,我司新推出螺纹和插口两种可供选择,目前有10ml、25ml、50ml、100ml、250ml、500ml、1000ml的规格可提供,产品质量有保障。 Teflon系列PFA容量瓶是一个透明的长颈瓶,瓶体…

scroll-view在小程序页面里实现滚动

要实现红框中的区域进行滚动,scroll-view必须写高 <template><!-- 合同-待确认 --><view class"viewport"><!-- 上 --><view class"top-box"><!-- tab --><view class"tabs"><textv-for"(ite…

基于Springboot的私人健身与教练预约管理系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的私人健身与教练预约管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三…

【每日小bug】mybatis plus id注解错误导致的问题

插入数据 id不为自增 指定了主键&#xff0c;没有指定自增。会导致出现 修改如上 报错 Data truncation: Out of range value for column ‘id’ at row 1 数据库是bigint&#xff0c;java中是Integer。 修改如上

JAVA开发的源码-供应商采购招标管理系统源码

SRM系统的主要功能包括&#xff1a; 私信获取源码 缩短采购周期时间&#xff1a;SRM数字化供应商管理系统提升企业之间的协作能力&#xff0c;将多个流程整合在一起&#xff0c;实现采购全流程线上化&#xff0c;在线审批流程的完整性&#xff0c;数字化供应商系统能够有效节约…

PPT文档怎么转换PDF?一个方法教你快速实现

在我们的办公、学习中难免会遇到需要将ppt转pdf文件的需求。现在的网络中有各种各样的PDF转换工具&#xff0c;有些操作很复杂&#xff0c;有些需要下载软件非常麻烦。接下来&#xff0c;给大家分享一款草最简单还不用下载软件的PPT转PDF&#xff08;https://www.yasuotu.com/p…