哪个视觉语言模型更优?InstructBLIP、MiniGPT-4?全面评估基准LVLM-eHub告诉你

图片

 夕小瑶科技说 原创
 作者 | 王思若

LLaMA、GPT-3等大型语言模型实现了对自然语言强大的理解和推理能力,为AI社区构筑了强大的语言基座模型。进而,继续迭代的GPT-4,更是赋予了模型处理图像的视觉能力。

如今,构建强大的多模态模型已经成为了社区的共识,BLIP2、LLaVA、MiniGPT-4、mPLUG-Owl、InstructBLIP等大量的视觉语言模型(Vision-Language Models,LVLMs)犹如井喷式被相继提出。

现有视觉语言模型是否真正对齐了图像和文本模态呢?究竟哪种视觉语言模型能力更优秀呢?

现有视觉语言模型孰强孰弱无疑是研究者关注的焦点,上海人工智能实验室构建了评估基准LVLM-eHub对包括InstructBLIP和MiniGPT-4等八种视觉文本模型进行了综合性评估。

研究发现,现有的如InstructBLIP等指令微调视觉语言模型,严重过拟合于现有任务,在真实场景中的泛化能力表现很差。此外,模型极容易出现对象幻觉问题,生成图像中并未出现的物体描述。

 大模型研究测试传送门

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):
Hello, GPT4!

论文题目:
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models

论文地址:
https://arxiv.org/pdf/2306.09265.pdf

一、构建六类多模态定量性能评估数据集,并搭建模型互动评测平台

LVLM-eHub由定量能力评估和在线互动评测平台组成,具体来说,一方面定量能力评估在47个标准视觉语言基准数据集上广泛评估LVLM在视觉感知、视觉知识获取、视觉推理、视觉常识、对象幻觉和具身智能6类多模态能力。

另一方面,搭建在线互动评测平台以众包的方式对视觉语言模型进行匿名随机成对对战,在开放世界的问答场景中提供用户层面的模型排名。

图片

视觉感知: 视觉感知是识别图像中的场景或物体的能力,是人类视觉系统的初级能力。包括图像分类任务,多类识别和物体计数任务。

视觉知识获取: 视觉知识获取需要超越感知来理解图像并获取知识。包括光学字符识别、关键信息抽取和图像描述任务。

视觉推理: 视觉推理需要全面理解图像及相关文本。为评估LVLM的视觉推理能力,包括三个任务,包括视觉问答(VQA)、视觉蕴含和基于知识的图像描述任务。

视觉常识: 这项评估通过使用ImageNetVC和视觉常识推理(VCR)来测试模型对通用共享人类知识的理解。具体来说,ImageNetVC用于零样本视觉常识评估,如颜色和形状,而VCR涵盖各种场景,如空间、因果和心理常识。

对象幻觉: 视觉语言模型存在对象幻觉问题,即生成的描述对象与目标图像不一致,本文在MSCOCO数据集上评估视觉语言模型的对象幻觉问题。

具身智能: 具身智能旨在创建人形机器人,并让他们学习解决需要环境交互的复杂任务,本文利用EmbodiedGPT中的高级任务作为基准。

本文调查视觉语言模型在各类新任务上的零样本能力来评估上述六类能力,具体而言,本文将零样本评估视为不同任务形式的提示工程:

  • 问答:设计适当的视觉问题提示来确保视觉语言模型生成有意义的结果,例如,“what is written in the image” 来作为OCR任务的文本提示。

  • 基于前缀的分数:对于多选选择任务,对给定图像一定的视觉提示,让模型生成图像和文本的似然度,把生成最大似然度结果的视觉提示作为答案。

  • 多轮推理:利用诸如ChatGPT之类的LLM为给定问题生成子问题,视觉语言模型提供相应的子答案,另一个LLM评估子答案的质量。通过这样的流程迭代进行,直到获得满意的答案或达到预定义的最大迭代次数。

  • 用户投票:让人类评估视觉语言模型在特定上下文中生成文本的质量、相关性和有用性。为了保持评估的公平性,本文会在评估过程中随机打乱模型输出顺序并对输出进行匿名化。

更有意思的,研究还搭建了视觉语言模型互动评测平台,让模型按照锦标赛的形式进行配对,用户可以使用图像和文本输入分别和配对的模型就任何话题进行聊天,模型真实世界的条件。在聊天阶段之后,用户为模型进行投票,让用户作为裁判,这可以带来比传统评估指标更有说服力的评估结果。

让多模态模型来一场‘宝可梦世界锦标赛’,就是你了,皮卡丘,LLaVA模型~

图片

二、现有视觉语言模型的测评结果

文章对8个代表性模型进行了测评,包括BLIP2,LLaVA,LLaMA-Adapter V2,MiniGPT-4,mPLUG-Owl,Otter,InstructBLIP和VPGTrans。

各大模型在六大类任务上都取得了相对不错的零样本能力,尤其是InstructBLIP更是近乎在所有任务取得了远超其他模型的性能表现。

图片

InstructBLIP在各种任务上都取得了远超其他模型的性能表现

但作者悲观的指出,这种优越的性能表现究其原因是模型过拟合的表现。

一方面,InstructBLIP在160万VQA数据集上进行了指令微调,远超过其他视觉语言模型,因此,在现存的in-domain任务中定量评估中表现及其良好,另一方面,在接近真实场景的在线互动评测中,反而InstructBLIP要比其他模型差很多,反而mPLUG-Owl和MiniGPT-4性能表现最好。

图片

8大视觉语言模型的指令微调数据集

图片

InstructBLIP在接近真实场景的在线互动评测中,表现很差,反而其他的例如mPLUG-Owl, MiniGPT-4, Otter等模型性能表现不错。

好消息,更大规模的指令微调数据集可以提升模型在in-domain任务上的性能表现,但坏消息,模型对这些数据验证过拟合了,因此,如何构建强大以及更广泛通用性的视觉语言模型依然有很长的路去走!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/99013.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PMP是什么?项目管理专业人士资格认证介绍

PMP认证旨在评估和确认具备一定经验和知识的项目管理专业人士的能力。通过获得PMP认证,项目经理可以证明他们具备在各个行业中成功领导和管理项目所需的技能。这些技能包括十二原则、8大绩效等方面的知识。 以下是PMP认证的详细介绍: 1. 资格要求&…

java八股文面试[JVM]——引用计数、可达性分析

要想进行垃圾回收,得先知道什么样的对象是垃圾。 引用计数法 对于某个对象而言,只要应用程序中持有该对象的引用,就说明该对象不是垃圾,如果一个对象没有任何指针对其引用,它就是垃圾。 引用计数法在对象头处维护一…

LINUX内核启动流程-1

1、BIOS启动 硬件设置从OXFFFF0启动:CPU硬件设置加电即进入16位实模式状态运行,CPU硬件逻辑设计为加电瞬间强行将CS的值置为oxF000,IP的值置为0xFFF0,这样CS:IP就指向0xFFFF0这个地址位置。 BIOS程序的入口地址恰恰就是0xFFFF0 ! 也就是说,BIOS程序的第一条指令就设计在…

Linux执行命令

命令格式 主命令 选项 参数(操作对象)例如: 修改主机名 hostname set-hostname 新名称显示/目录下的文件的详细信息 ls -l /命令 内置命令(builtin):shell程序自带的命令。 外部命令:有独立…

java+ssm+mysql水费管理系统

项目介绍: 使用javassmmysql开发的用户水费管理系统,系统包含超级管理员,系统管理员、用户角色,功能如下: 超级管理员:管理员管理、用户管理、用水管理(用水记录、缴费提醒)、水费…

prometheus通过blackbox-exporter监控web站点证书

1 概述 线上站点普遍是https,因此监控https web站点的证书的过期时间,是一个基础性需求。例如,证书过期会导致tls握手失败,进而导致用户无法正常访问web站点。 blackbox-expoter是一个web服务,它暴露了一个接口&#…

企业专题片的优势

企业专题片可以通过生动、感人的方式传达企业形象和信息,引起观众的共鸣和兴趣。它是一种强有力的营销工具,能够提升品牌形象、增加产品或服务的认知度,并在激烈的市场竞争中突显企业的实力和成果。企业专题片具有多个好处和影响,…

SpringBoot整合WebSocket

流程分析 Websocket客户端与Websocket服务器端 前端浏览器和后端服务器的连接通信 HTTP与Websocket对比 服务器端编码 1.引入pom依赖 <!--webSocket--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-sta…

K8S的介绍和架构

仅供入门 K8S的介绍和架构 一. 什么是kubernetes二、Kubernetes架构和组件 2.1 核心组件 2.1.1 Kubernetes Master控制组件&#xff0c;调度管理整个系统&#xff08;集群&#xff09;&#xff0c;包含如下组件: a、Kubernetes API Serverb、Kubernetes Schedulerc、Kubernet…

二叉树的介绍及二叉树的链式结构的实现(C语言版)

前言 二叉树是一种特殊的树&#xff0c;它最大的度为2&#xff0c;每个节点至多只有两个子树。它是一种基础的数据结构&#xff0c;后面很多重要的数据结构都是依靠它来进行实现的。了解并且掌握它是很重要的。 目录 1.二叉树的介绍 1.1概念 1.2现实中的二叉树 1.3特殊的二叉…

【已解决】PowerPoint在哪里设置“打开密码”?

想要保护PPT文件不能被随意打开&#xff0c;我们可以设置“打开密码”。 PPT有两个设置“打开密码”的地方&#xff0c;下面小编来分享一下&#xff0c;不清楚的小伙伴可以看看哦。 方法1&#xff1a;直接在PPT里设置 打开需要设置保护的PPT&#xff0c;点击菜单栏中的“文件…

类和对象(中)

&#x1f493;博主个人主页:不是笨小孩&#x1f440; ⏩专栏分类:数据结构与算法&#x1f440; C&#x1f440; 刷题专栏&#x1f440; C语言&#x1f440; &#x1f69a;代码仓库:笨小孩的代码库&#x1f440; ⏩社区&#xff1a;不是笨小孩&#x1f440; &#x1f339;欢迎大…