经典多模态大模型

“浅对齐”模型

经典多模态结构BLIP2

Motivation

  • 端到端的进行vision-language预训练成本太大了,之前存在很多预训练好的模型,这篇文章希望能够使用这些训练好的参数,节约成本。

  • 如果直接冻结预训练好的参数,去做下游任务,效果不佳。这是因为图像表征和文本表征是在两个不同的语料利用不同的模型训练出来的,不好对齐。

因此这篇论文提出了一个Query Transformer(Q-Former)结构,通过训练该结构能够对齐两种模态的信息,并且q-former很轻量,训练很快,花销很小。

整个训练过程被分成了两阶段。第一阶段进一步学习图像和文本表征;第二阶段从冻结的大语言模型中引导图像到文本的生成学习,实现zero-shot图像到文本生成。它冻结了图像编码器和文本编码器中的参数,不需要端到端的训练图像编码器和文本编码器,只需要训练Q-former。

Q-former结构

  • Image-Text Contrastive Learning (ITC)

鼓励成对正样本之间更相似,负例之间相似度更低。但由于query的存在,它并不是直接使用图像和文本编码器输出的图文表征。对于图像表征,它选择了经过图像编码器后的query representation,对于文本表征选择使用text transformer输出的[CLS]表征 t。并且由于query embedding中包含了32个query的表征,需要分别计算每一个query和 t 之间的相似度,最后只取相似度的最高值。为了避免信息泄露,这个任务使用的是unimodal self-attention mask

  • Image-grounded Text Generation (ITG)

Q-former结构中,冻结的图像编码器和text tokens不能直接交互,因此想做生成时需要两步,第一步使用queries提取表征,第二步将表征通过自注意力层传递给text token(这里体现在q-former中的图像部分和文本部分使用的self-attention是共享的)因此,query被迫提取有关文本所有信息的视觉表征。

使用multimodal causal self-attention mask控制query-text交互,query看不到text,text能看到query和之前的text token。

  • Image-Text Matching (ITM)

图文匹配二分类任务。使用bi-directional self-attention mask,query和text之间可以互相看到。每一个query embedding作为二分类任务的输入都可以得到一个预测概率,最终取32个query预测概率的平均值作为输出的预测分数。这篇论文中也使用了ALBEF中的hard negative mining strategy。

LLaVA&MiniGPT-4

如图1与图2所示,比较典型的是LLaVA;以及MiniGPT-4和VisualGLM采用基本相同的方案,都是基于BLIP-2

  • LLaVA是将视觉encoder处理过后的视觉向量通过一个简单的投影层直接映射到词向量空间;

  • MiniGPT-4则是使用q-former将视觉encoder产生的向量通过32个特殊tokens抓取与输入文本最相关的信息而产生32个新的tokens,再将这32个tokens通过一个投影层映射到词向量空间。

CogVLM解读

CogVLM在“浅对齐”的基础上,往大语言模型的每个decoder层添加视觉专家模块,实现了更深层次的对齐。

思路

受到p-tuning和LoRA的效果对比的启发(P-tuning通过学习给LLM添加前缀prompt来微调LLM,这与多模态大模型的"浅对齐"方式类似;而LoRA通过在LLM的每一个attention模块上添加低秩矩阵来实现微调。LoRA的微调效果要远强于P-tuning)作者想到了给LLM添加视觉专家模块。

深层解释

给模型添加视觉模块还有两个原因:

  1. 语言模型中的冻结权重是针对文本标记进行训练的。视觉特征在输入文本空间中没有完美的对应。因此,在多层转换后,视觉特征可能不再匹配深层权重的输入分布。

  2. 在预训练过程中,图像caption任务的先验,例如文字风格和caption长度,只能在浅对齐方法中编码到视觉特征中。它削弱了视觉特征与内容之间的一致性。

如果将视觉和语言信息一起训练可能可以解决这些问题。但是后果是会造成灾难性遗忘。而CogVLM采用的方案是给原LLM的每个decoder层加上一个视觉专家模型,每个视觉专家模型由一个完整的decoder模块构成(即Attention + FFN)。在训练过程中,原LLM的参数被固定不训练,所以训练消耗的FLOPs不变(笔者个人理解,不变是不可能的,只是增加的不多)。并且由于LLM的参数被固定,所以LLM原有的能力不受影响。

LLaMA-Adapter系列

LLaMA-Adapter

LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

模型图如下,红色的表示初始化的可训练的 adaption prompts,蓝色的表示参数冻结的 LLM 模型

Multi-modal Reasoning of LLaMA-Adapter。LLaMAAdapter被扩展为多模态变体,用于图像条件问答。给定图像作为视觉上下文,我们通过多尺度聚合获得全局图像标记,并将其巧妙地添加到视觉指令跟随的自适应提示中。

LLaMA-Adapter V2

通过解锁更多的可学习参数,增强了LLaMA-Adapter,比如Norm、bias和scale,这能将instruction-following能力分散到整个LLaMA模型,除了adapters。

一个图文对和instruction-following数据的联合训练模式通过优化可学习参数的拆分组被引入。这个策略有效的减轻了两个任务间的推理:图文对齐和instruction following,并且只使用一小部分图文和instruction数据集,取得了好的多模态推理。

在推理中,我们将额外的expert模型融合到了LLaMA-Adapter中去,在不需要增加训练成本下,进一步增强它的图像理解能力。

主要贡献:

  1. 更强的语言指导模型。有参数高效微调的方法、高质量语言instruction数据,LLaMA-Adapter V2在语言instruction-following性能上超过了LLaMA-Adapter。而且,LLaMA-Adapter V2能够开展多轮对话,展示了它的更强的语言instruction能力。

  2. 平衡的视觉Instruction 微调 我们提出了一个简单的早期融合策略去解决图文匹配和Instruction Following之间的干扰。因此,我们将LLaMA-Adapter V2变成了视觉Instruction 模型,不需要多模态Instruction训练数据。

  3. 加入专家系统。没有在大规模的图文对上预训练,而是采用整合不同的专家系统去增强LLMs的图像理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/688598.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

首批|知从科技入选国内首个“汽车网络与数据安全行业全景图”

近日,国内完全专注于汽车网络数据安全领域的领先平台谈思实验室(Taas Labs)发布国内首个“汽车网络与数据安全行业全景图”,知从科技首批入选,标志着其在汽车软件功能安全与信息安全方面的专业实力得到了行业的高度认可。 *汽车网络与数据安全…

2D-3D 转换中,为什么世界坐标要扩充成四维, 图像坐标要扩充成三维?

总结 在计算机视觉和图形学中,将世界坐标扩充成四维,以及图像坐标扩充成三维,是为了便于运用齐次坐标(homogeneous coordinates)进行坐标变换。这样的做法简化了投影变换的数学表示和计算,特别是在三维场景…

1-2亿条数据需要缓存,如何合理设计存储

单机是不可能的,肯定是分布式存储 数据怎么落? 一般业界有三种解决方案 哈希取余分区 一致性哈希算法分区 哈希槽分区(大厂专用,都在用)最终的选择

Nginx Location配置详解

目录 一、Location语法结构1、语法结构说明2、各个标识的含义和优先级3、配置请求的根目录4、替换请求的uri 二、Location具体示例1、精确匹配2、正则匹配3、常规字符串匹配 三、调试Location的小技巧 一、Location语法结构 1、语法结构说明 在Nginx官方文档中定义的location…

shopee虾皮跨境商家:月出1000单爆款打造思路!

Shopee爆款打造的方式是需要满足很多特点的,我把它大概归结为了7大要素: 1、顺应平台潮流 通过Shopee前台、市场周报,以及你对这个行业的经验,能够及时掌握平台最近主推产品的信息,又刚好我们店铺里面的商品有能够搭…

最新!TOP200高校!5月ESI排名,公布!

【SciencePub学术】5月9日,ESI数据库更新了2024年5月最新ESI数据。据统计,全球共有9019家科研机构上榜,其中有449所中国内地高校。 ESI(基本科学指标数据库)是目前世界范围内普遍用以评价高校、学术机构、国家或地区国…

Blazor入门-调用js+例子

参考: Blazor入门笔记(3)-C#与JS交互 - 半野 - 博客园 https://www.cnblogs.com/zxyao/p/12638233.html 本地环境:win10, visual studio 2022 community 其他例子写了再更新! 调用js函数并传递参数 首先要加上injec…

antd组件状态变换为啥要使用剪头函数

先看下代码 import React, {useState} from react; import {Switch, Typography} from antd;const {Paragraph, Text} Typography;const App: React.FC () > { const [ellipsis, setEllipsis] useState(true);return (<>//正确的<Switch checked{ellipsis}onCh…

如何盘点选择的连锁收银系统贵不贵

在选择连锁收银系统时&#xff0c;成本是一个至关重要的考量因素。盘点连锁收银系统的成本既涉及到系统本身的购买费用&#xff0c;也包括了系统的维护、培训以及可能带来的附加费用。下面将从四个方面对连锁收银系统的成本进行盘点。 1. 初始投资成本 连锁收银系统的初始投资…

怎样的跨网软件,可以实现网间数据的安全收发?

网络隔离已是较为常见的网络安全保护措施&#xff0c;比如防火墙、网闸、VLAN&#xff0c;云桌面虚拟环境等方面进行隔离。像一些科技研发型企业&#xff0c;不仅仅是内外网隔离&#xff0c;甚至还划分办公网、研发网、测试网、生产网等&#xff0c;防止研发资料、设计资料等敏…

构建智能化招采与设备管理系统:架构设计与实践

随着科技的迅速发展&#xff0c;智能化招采与设备管理系统在各个领域的需求与应用日益增加。本文将深入探讨该系统的架构设计&#xff0c;介绍其关键特点和最佳实践&#xff0c;助力企业提升采购效率、管理流程&#xff0c;实现智能化招标采购与设备管理。 1. **需求分析与功能…

typescript 模块化

模块的概念&#xff1a; 把一些公共的功能单独抽离成一个文件作为一个模块。 模块里面的变量、函数、类等默认是私有的&#xff0c;如果我们要在外部访问模块里面的数据&#xff08;变量、函数、类&#xff09;&#xff0c;需要通过export暴露模块里面的数据&#xff08;&#…