CLIP浅谈

CLIP论文地址:Learning Transferable Visual Models From Natural Language Supervision
CLIP代码地址:https://github.com/openai/CLIP

简介

CLIP是OpenAI在2021年2月发表的一篇文章,它的主要贡献有以下2点:
1)将图像分类问题映射为了多模态问题,也就是说他的图片标签不再是一个单词类别,而是一段文字描述,例如:“A photo of {label}”;
2)利用4亿的训练数据,将待分类的图片映射为了zero-shot问题,对于新来的数据,只需要把标签记录下来,就可以直接分类,而不需要重新训练。

模型结构

在这里插入图片描述

text encoder可以简单地理解为bert,作用为将图片的描述映射为特征向量,假如有n个句子,就是n个文本特征,image encoder可以理解为vit,假如有n张图片,也会得到n个图片特征。最后将文本特征和图片特征计算余弦距离,可以得到n*n的矩阵。由于每个文本只有一张对应的图片是正例,同理每一张图片只有一句文本是正例,因此对角线处的余弦距离最近,相似度最高,其他位置的距离要尽可能的大,相似度尽可能的低。当训练完成后,在预测的时候,只需要计算每张图片与待预测的类别余弦距离即可,找距离最近,相似度最高的一个类别就是输出结果。

实验结果

在这里插入图片描述

实验结果表明,clip在众多数据集上都战胜了resnet50,这在之前的网络中是不可能的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/197252.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

元宇宙外科手术vrar仿真实验室平台提高了培训效率和安全性

在科研与教育的领域中,实验室的作用举足轻重。然而,传统实验室受限于时间、空间、资源等因素,难以满足日益增长的科研与教育需求。在这一背景下,3D元宇宙仿真实验室应运而生,以其独特的优势,成为科研与教育…

深兰科技成功入选《2023年度国家知识产权优势企业名单》

2023年11月13日,国家知识产权局正式公布了《2023年度国家知识产权优势企业的名单》(以下简称“《名单》”)。深兰人工智能科技(上海)股份有限公司成功入选,荣获“国家知识产权优势企业”称号。 “国家知识产权优势企业”是指企业经营范围属于国家重点发展…

【文末送书】计算机网络 | IO多路转接技术 | poll/epoll详解

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…

Three.js相机模拟

有没有想过如何在 3D Web 应用程序中模拟物理相机? 在这篇博文中,我将向你展示如何使用 Three.js和 OpenCV 来完成此操作。 我们将从模拟针孔相机模型开始,然后添加真实的镜头畸变。 具体来说,我们将仔细研究 OpenCV 的两个失真模型,并使用后处理着色器复制它们。 拥有逼…

Rocky Linux Download

前言 Rocky Linux 是一个社区企业操作系统,旨在与美国顶级企业 Linux 发行版 100% 逐个 bug 兼容,因为其下游合作伙伴已经转移方向。它正在社区的密集开发中。Rocky Linux 由 CentOS 项目的创始人 Gregory Kurtzer 领导。贡献者被要求使用本网站上提供的…

(论文阅读51-57)图像描述3 53

51.文献阅读笔记(KNN) 简介 题目 Exploring Nearest Neighbor Approaches for Image Captioning 作者 Jacob Devlin, Saurabh Gupta, Ross Girshick, Margaret Mitchell, C. Lawrence Zitnick, arXiv:1505.04467 原文链接 http://arxiv.org/pdf/1…

我们为什么要做亚马逊测评?

提高页面权重 一般页面有三个部分构成 标题,关键词,描述 review 可以很好地充当一个描述的角色,为页面提升权重 我们会发现有些评论全部是视频,但是却可以推他的关键词到他的首页,因为视频带来的权重是最高的&…

CRM按行业细分的重要性

很多企业和销售会诟病CRM系统不够贴合行业、功能也不够细分和实用。因为各行各业的业务千差万别,所以功能完备、使用满意度高的CRM一定是与不同行业业务场景高度匹配的,是深度行业化的。因此行业化是CRM发展的重要趋势之一,为什么CRM一定要走…

Wireshark网络工具

Wireshark是网络包分析工具。网络包分析工具的主要作用是尝试捕获网络包,并尝试显示包的尽可能详细的情况。 Wireshark是一个免费开源软件,不需要付费,免费使用,可以直接登陆到Wireshark的官网下载安装。 在windows环境中&#x…

SOLIDWORKS2024钣金及结构系统功能增强

SOLIDWORKS钣金和结构系统是大家比较熟悉的模块了,在新版本中钣金和结构系统功能也做了相应的优化。接下来让我们看看在SOLIDWORKS 2024中钣金和结构系统有哪些功能增强。 首先是钣金方面,我们先来看看新增的槽口延伸功能,在装配体零部件中创…

壹基金为爱同行走进绿水青山,为乡村儿童送去健康水

壹基金为爱同行公益践行活动发起于2013年,截至2022年底,累计有63,319名线下参与队员,走过了8个城市。2023年,为爱同行的“壹家人”再次出发,走进“绿水青山就是金山银山”理念诞生地——浙江安吉余村,徒步18公里,为乡村儿童喝上足量、干净的饮用水筹集善款。本次活动获得了当地…

CRM系统怎样帮助企业提高客户服务能力?

在企业的经营过程中,绝不是追求“一锤子买卖”,而是与客户建立长期稳定的关系,从而获得更多的收益。CRM客户关系管理系统顾名思义,就是帮助企业管理客户关系的软件。下面说说,如何通过CRM提高客户服务能力? CRM可以帮…