LLaVa大模型关键技术及在线演示

LLaVA,一种新的大型多模态模型,称为“大型语言和视觉助手”,旨在开发一种通用视觉助手,可以遵循语言和图像指令来完成各种现实世界的任务。 这个想法是将 GPT-4 等大型语言模型 (LLM) 的强大功能与 CLIP 等视觉编码器相结合,创建一个经过端到端训练的神经助手,可以理解多模态指令并根据多模态指令采取行动。

在这里插入图片描述

推荐:用 NSDT编辑器 快速搭建可编程3D场景

在人工智能领域,目标是创建一个多功能助手,能够基于视觉和语言输入理解和执行任务。 当前的方法通常依赖于独立解决任务的大型视觉模型,语言仅用于描述图像内容。 虽然有效,但这些模型具有固定的界面,交互性和对用户指令的适应性有限。

另一方面,大型语言模型(LLM)已显示出作为通用助手的通用接口的前景。 通过用语言显式地表示各种任务指令,可以引导这些模型切换和解决不同的任务。 ChatGPT 和 GPT-4 等显著成功证明了对齐的LLM在遵循人类指令方面的力量,并刺激了 LLaMA 等开源LLM的发展。

为了将这种能力扩展到多模态领域,本文引入了“视觉指令调整”,这是一种构建通用视觉助手的新颖方法。 这涉及使用 ChatGPT/GPT-4 将图像文本对转换为适当的指令跟踪数据,因为目前缺乏视觉语言指令跟踪数据。

1、GPT 辅助视觉指令数据生成

为了创建遵循指令的数据,他们从图像文本对(Xv,Xc)开始,并生成一组问题(Xq)来指导助手描述图像内容。 他们使用 GPT-4 提出诸如“简洁地描述图像”、“提供给定图像的简短描述”、“对所呈现的图片提供简洁的解释”和“总结图像的视觉内容”等问题。 这种简单的方法将原始图像-文本对扩展为其遵循指令的版本。

Human : Xq Xv<STOP>\n Assistant : Xc<STOP>\n.

尽管构建成本低廉,但这个简单的扩展版本在指令和响应中缺乏多样性和深入的推理。

为了解决这个问题,他们使用纯语言 GPT-4 或 ChatGPT 作为强大的教师,仅接受文本作为输入,以生成涉及视觉内容的指令跟踪数据。 他们使用两种符号表示将图像编码为视觉特征:标题(从不同角度描述视觉场景)和边界框(定位场景中的对象并编码其概念和空间位置)。 对于给定图像的示例如下所示:
在这里插入图片描述

2、视觉指令调整

主要目标是利用预训练模型和视觉模型的功能:

在这里插入图片描述

对于输入图像 Xv,它考虑预先训练的 CLIP 视觉编码器 ViT-L/14 ,它提供视觉特征 Zv = g(Xv)。 实验中考虑了最后一个 Transformer 层之前和之后的网格特征。 它考虑一个简单的线性层将图像特征连接到词嵌入空间。 具体来说,应用可训练的投影矩阵 W 将 Zv 转换为语言嵌入标记 Hq,其与语言模型中的词嵌入空间具有相同的维度:

Hv = W · Zv, with Zv = g(Xv)

因此有一系列视觉标记 Hv。 LLaVa 使用简单的投影矩阵连接预训练的 CLIP ViT-L/14 视觉编码器和大型语言模型 Vicuna。 我们考虑一个两阶段的指令调整过程:

  • 阶段1:特征对齐的预训练。 仅基于 CC3M 的子集更新投影矩阵。
  • 阶段2:端到端微调。投影矩阵和 LLM 均针对两种不同的使用场景进行更新:
  • 可视聊天:LLaVA 针对我们生成的多模式指令跟踪数据进行了微调,用于面向日常用户的应用程序。
  • 科学 QA:LLaVA 在科学领域的多模态推理数据集上进行了微调。

在这里插入图片描述

用于训练模型的输入序列:

  • Xsystem-message =“一个好奇的人类和一个人工智能助手之间的聊天。 助理会针对人类的问题给出有用、详细且礼貌的答案。”
  • <STOP>=###

该模型经过训练来预测辅助答案以及在哪里停止,因此仅使用绿色序列/标记来计算自回归模型中的损失。

结果示例:

在这里插入图片描述
在这里插入图片描述

3、LlaVA在线演示

你可以点击这里尝试官方部署的演示。以下是一些对话的截图。
在这里插入图片描述

  • 询问图片中包含哪些饮料食品

在这里插入图片描述

  • 询问图片中食物的原料和口味
    在这里插入图片描述

  • 询问图片中食物的制作方法
    在这里插入图片描述

4、LLaVA训练

LLaVA详细的训练过程将在下一篇文章中讲解。


原文链接:LLaVa原理及在线演示 — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/130081.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「新房家装经验」客厅电视高度标准尺寸及客厅电视机买多大尺寸合适?

客厅电视悬挂高度标准尺寸是多少&#xff1f; 客厅电视悬挂高度通常在90~120厘米之间&#xff0c;电视挂墙高度也可以根据个人的喜好和实际情况来调整&#xff0c;但通常不宜过高&#xff0c;以坐在沙发上观看时眼睛能够平视到电视中心点或者中心稍微往下一点的位置为适宜。 客…

springboot-配置文件优先级

官方文档 https://docs.spring.io/spring-boot/docs/2.7.16/reference/htmlsingle/#features.external-config Spring Boot允许外部化配置&#xff0c;这样就可以在不同的环境中使用相同的应用程序代码。您可以使用各种外部配置源&#xff0c;包括Java属性文件、YAML文件、环境…

【uniapp】自定义导航栏时,设置安全距离,适配不同机型

1、在pages.json中&#xff0c;给对应的页面设置自定义导航栏样式 {"path": "pages/index/index","style": {"navigationStyle": "custom","navigationBarTextStyle": "white","navigationBarTitl…

MySQL中的 增 删 查 改(CRUD)

目录 新增 insert into 表名 value(数据&#xff0c;数据),.......&#xff1b; insert into 表名&#xff08;列1&#xff0c;列2.....&#xff09; value(数据&#xff0c;数据),.......&#xff1b; datatime 类型的数据如何插入&#xff1f; 查询 select * from 表名…

深度学习笔记之优化算法(六)RMSprop算法的简单认识

深度学习笔记之优化算法——RMSProp算法的简单认识 引言回顾&#xff1a;AdaGrad算法AdaGrad算法与动量法的优化方式区别AdaGrad算法的缺陷 RMProp算法关于AdaGrad问题的优化方式RMSProp的算法过程描述 RMSProp示例代码 引言 上一节对 AdaGrad \text{AdaGrad} AdaGrad算法进行…

Avalonia环境搭建

1.开发文档 开发文档&#xff0c; GitHub项目地址 https://github.com/avaloniaui/avalonia 2.VS2022 及扩展安装 建议使用vs2022最新版本下载并安装扩展Avalonia for Visual Studio 2022 3.安装Avalonia UI模板 dotnet new install Avalonia.Templates 查看安装版本 dot…

增强现实抬头显示AR-HUD

增强现实抬头显示&#xff08;AR-HUD&#xff09;可以将当前车身状态、障碍物提醒等信息3D投影在前挡风玻璃上&#xff0c;并通过自研的AR-Creator算法&#xff0c;融合实际道路场景进行导航&#xff0c;使驾驶员无需低头即可了解车辆实时行驶状况。结合DMS系统&#xff0c;可以…

电机控制——PID基础

本文来讲一下PID调节器。 在实际的系统中&#xff0c;因为摩擦、阻力等外界因素的存在&#xff0c;系统的实际输出与我们期望的输出通常存在误差&#xff0c;PID的目的就是调节系统的实际输出&#xff0c;使其更快更稳地贴近期望输出。 PID模块被周期性的调用&#xff0c;模块…

vue接入高德地图获取经纬度

&#x1f90d;step1:高德地图开放平台&#xff0c;根据指引注册成为高德开放平台开发者&#xff0c;并申请 web 平台&#xff08;JS API&#xff09;的 key 和安全密钥; &#x1f90d;step2:在html引入安全密钥&#xff08;获取经纬度用&#xff0c;不然会报错&#xff09; <…

FFmpeg 基础模块:容器相关的 API 操作

目录 AVFormat 模块 AVFormat 前处理部分 AVFormat 读写处理部分 小结 思考 FFmpeg 目录中包含了 FFmpeg 库代码目录、构建工程目录、自测子系统目录等&#xff0c;具体内容如下&#xff1a; 现在你知道 FFmpeg 的源代码目录中都包含了哪些内容&#xff0c;在之后使用 FFm…

手撕各种排序

> 作者简介&#xff1a;დ旧言~&#xff0c;目前大一&#xff0c;现在学习Java&#xff0c;c&#xff0c;c&#xff0c;Python等 > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;掌握每种排序的方法&#xff0c;理解每种排序利弊…

SMT求解器Q3B——在WSL上的Docker配置

SMT求解器Q3B——在WSL上的Docker配置 1、配置wsl下的Docker2、在github上下载Q3B3、更换配置文件4、安装docker镜像5、运行Docker容器6、编译Q3B7、使用Q3B 1、配置wsl下的Docker WSL 2 上的 Docker 远程容器入门 2、在github上下载Q3B Q3B下载地址 3、更换配置文件 下载…