BLIP2-编程知识

BLIP2

news/2025/4/2 19:19:16/文章来源:https://blog.csdn.net/icylling/article/details/132164696

BLIP2的任务是基于已有的固定参数的图像encoder和语言大模型（LLM）搭建一个具有图像理解能力的图文模型，输入是图像和文本，输出是文本。

BLIP2基于Q-Former结构，如下图所示。Q-Former包含图像transformer和文本transformer两个transformer。两个transformer的self-attention layer是共享的。图像transformer的输入是固定数量的可学习的query embedding。query embedding先通过self-attention和文本交互，再并通过cross-attention和图像特征交互。Q-Former的cross-attention的参数随机初始化，其他参数用bert的参数初始化。Q-Former的优势是可以从图像encoder中提取出固定长度的特征。

BLIP2的训练分为两步：

从固定参数的图像encoder学习视觉文本编码，有Image-Text Contrastive Learning (ITC)、Image-grounded Text Generation (ITG) 、Image-Text Matching (ITM)三个训练目标。
从固定参数的LLM学习理解图片生成文本。通过FC层连接Q-Former将queries的映射到和文本token相同维度，拼接在文本前面。

图像encoder选择了CLIP的ViT-L/14和EVA-CLIP的ViT-G/14。LLM选择了OPT和FlanT5。

训练数据包含129M幅图片，来自COCO、Visual Genome、CC3M、 CC12M、SBU、 LAION400M。互联网图片使用CapFilt方法生成文本描述。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/59701.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

20230809在WIN10下使用python3处理Google翻译获取的SRT格式字幕（DOCX）

20230809在WIN10下使用python3处理Google翻译获取的SRT格式字幕（DOCX）

20230809在WIN10下使用python3处理Google翻译获取的SRT格式字幕（DOCX） 2023/8/9 19:02 由于喜欢看纪录片等外文视频，通过剪映/PR2023/AUTOSUB识别字幕之后，可以通过google翻译识别为简体中文的DOCX文档。 DOCX文档转换为TXT文档之…

阅读更多...

后端进阶之路——万字总结Spring Security与数据库集成实践（五）

后端进阶之路——万字总结Spring Security与数据库集成实践（五）

前言「作者主页」：雪碧有白泡泡「个人网站」：雪碧的个人网站「推荐专栏」： ★java一站式服务 ★ ★前端炫酷代码分享 ★ ★ uniapp-从构建到提升★ ★ 从0到英雄，vue成神之路★ ★ 解决算法，一个专栏就够了★ ★ 架…

阅读更多...

Vue3弹出确认（Popconfirm）

Vue3弹出确认（Popconfirm）

效果如下图：在线预览 APIs 参数说明类型默认值必传title确认框的标题string | slot‘’falsedescription确认框的内容描述string | slot‘’falsecontent展示的文本string | slot‘’falseicon自定义弹出确认框 Icon 图标string | slot‘’falsemaxWidth弹出确认框…

阅读更多...

QT QLCDNumber 使用详解

QT QLCDNumber 使用详解

本文详细的介绍了QLCDNumber控件的各种操作，例如：新建界面、源文件、设置显示位数、设置进制、设置外观、设置小数点、设置溢出、显示事件、其它文章等等操作。实际开发中，一个界面上可能包含十几个控件，手动调整它们的位置既费时…

阅读更多...

数据挖掘全流程解析

数据挖掘全流程解析

数据挖掘全流程解析数据指标选择在这一阶段，使用直方图和柱状图的方式对数据进行分析，观察什么数据属性对于因变量会产生更加明显的结果。如何绘制直方图和条形统计图数据清洗观察数据是否存在数据缺失或者离群点的情况。数据异常的两种情况…

阅读更多...

【Windows】Windows开机密码重置

【Windows】Windows开机密码重置

文章目录前言一、问题描述二、操作步骤2.1 安装DaBaiCai_d14_v6.0_2207_Online.exe2.2 插入U盘2.3 打开大白菜，点击“一键制作USB启动盘”2.4 等待进度条走完2.5 重启电脑，开机按“F12”或者“F8”（具体百度一下，对应品牌电脑开机…

阅读更多...

vue3+ts+element-plus大屏看板---横向轮播（anime.js）

vue3+ts+element-plus大屏看板---横向轮播（anime.js）

vue3ts大屏看板---横向轮播（anime.js） 1. 安装和引入anime.js1. 安装2. 引入* 引入报错：引入时候报错 2. 基于vue3tsanime.js实现一个大屏组件轮播效果，如下1. 写一个需要轮播的模块样式✏️ 代码（有写注释&#xff09…

阅读更多...

分布式应用：ELK企业级日志分析系统

分布式应用：ELK企业级日志分析系统

目录一、理论 1.ELK 2.ELK场景 3.完整日志系统基本特征 4.ELK 的工作原理 5.ELK集群准备 6.Elasticsearch部署（在Node1、Node2节点上操作） 7.Logstash 部署（在 Apache 节点上操作） 8.Kiabana 部署（在 Node1 节点…

阅读更多...

基于短信宝API零代码实现短信自动化业务

基于短信宝API零代码实现短信自动化业务

场景描述： 基于短信宝开放的API能力，实现在特定事件（如天气预警）或定时自动发送短信（本文以定时群发短信为例）。通过Aboter平台如何实现呢？ 使用方法： 首先创建一个IPaaS流程&…

阅读更多...

网络安全设备-等保一体机

网络安全设备-等保一体机

本文为作者学习文章，按作者习惯写成，如有错误或需要追加内容请留言（不喜勿喷） 本文为追加文章，后期慢慢追加等保一体机的功能等保一体机产品主要依赖于其丰富的安全网元（安全网元包括：防火…

阅读更多...

uniapp 微信小程序上下滚动的公告通知（只取前3条）

uniapp 微信小程序上下滚动的公告通知（只取前3条）

效果图： <template><view class"notice" click"policyInformation"><view class"notice-icon"><image mode"aspectFit" class"img" src"/static/img/megaphone.png"></i…

阅读更多...

前端渲染数据

前端渲染数据

在前端对接受后端数据处理后返回的接收值的时候，为了解决数据过于庞大，而对数据进行简化处理例如性别，经常会使用1， 0这俩个来代替文字的男，女。以下就是前端渲染的具体实现。以下是部分代码 <el-table-columnpr…

阅读更多...

推荐文章

最新文章