如何评估基于指令微调的视觉语言模型的各项能力-MMBench论文解读

1. 传统基准的固有局限

  1. VQAv2:视觉问题回答数据集,主要用于评估视觉理解与推理能力。
  2. COCO Caption:图像描述生成数据集,用于评估模型对图像内容的理解与描述能力。
  3. GQA:结合常识的视觉问题回答数据集。
  4. OK-VQA:需要外部知识的视觉问题回答数据集。
  5. TextVQA:图像中包含文本的问题回答数据集。
  6. 主观性基准(例如mPLUG-Owl等):依赖人类评估

这些传统基准测试存在以下问题:

  1. 评价指标要求预测与参考答案完全匹配,可能导致许多误判样本。
  2. 基准测试侧重评估特定任务,无法对模型的多方面能力进行细粒度评估。
  3. 提供的反馈有限,难以指导模型的进一步优化。

本文提出的观点:论文链接:https://arxiv.org/pdf/2307.06281.pdf

2. 本文摘要

MMBench,是一个针对大规模多模态模型的新型评估基准。随着视觉语言模型在感知和推理能力方面的显著进步,如何有效地评估这些模型成为了一个主要难题。传统基准如VQAv2和COCO Caption提供了定量性能测量,但在细粒度能力和鲁棒性评估指标方面存在不足。而像OwlEval这样的主观性基准虽然能够全面评价模型能力,但其可扩展性差且易受偏见影响。

MMBench设计了一套综合的评估流水线,包含两大核心元素:

  • 一是精心构建的超越现有同类基准的数据集,该数据集包括2,974个经过细致挑选的问题,覆盖了20种不同类型的细粒度技能;
  • 二是引入了创新的CircularEval策略,并结合使用ChatGPT技术来将模型生成的自由格式预测转化为预定义选项,以实现对模型预测的更可靠评估。

通过MMBench对14个知名视觉语言模型进行全面评估后发现,现有模型在多项选择题上的表现普遍不尽人意,大多数模型在MMBench测试集上面对最多4个选项的选择题时,Top-1准确率未达到50%,表明当前VLMs在应对不同提示下的预测一致性以及跨实例理解与逻辑推理等方面的能力有限。特别是跨实例理解和逻辑推理能力显得尤为薄弱,需要作为未来研究的重要方向加以改进。

此外,文档提到对象定位数据的引入有望提高模型性能,其中Kosmos-2和Shikra等模型在应用了此类数据后显示出明显的性能提升。同时,文中列举了多个视觉语言模型及其参数规模,并报告了它们在MMBench开发集上的具体表现,强调了采用更加严格、合理的CircularEval评估策略的重要性。


 

3. 核心知识点

  1. 视觉语言模型评估挑战
    • 文章指出当前大规模视觉语言模型的发展迅速,但对其有效评估仍是一大挑战。
  • 传统评估基准(如VQAv2、COCO Caption)侧重于定量性能指标,但缺乏对模型细粒度能力的精细评估及评估指标的鲁棒性。
  1. MMBench基准介绍ÿ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/585538.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数学矩阵(详解)

矩阵乘法 知阵乘法是《线性代数》中的基础内容,但在考察数学的算法题中也会出现。 本节我们学习基础的矩阵乘法规则。 每个矩阵会有一个行数和一个列数,只有当相乘的两个矩阵的左矩阵的列数等于右矩阵的行数 时,才能相乘,否则不允…

打造高效电影推荐系统:Spring Boot与Vue协同过滤算法实践

末尾获取源码作者介绍:大家好,我是墨韵,本人4年开发经验,专注定制项目开发 更多项目:CSDN主页YAML墨韵 学如逆水行舟,不进则退。学习如赶路,不能慢一步。 目录 一、项目简介 二、开发技术与环…

AIGC-Stable Diffusion发展及原理总结

目录 一. AIGC介绍 1. 介绍 2. AIGC商业化方向 3. AIGC是技术集合 4. AIGC发展三要素 4.1 数据 4.2 算力 4.3 算法 4.3.1 多模态模型CLIP 4.3.2 图像生成模型 二. Stable Diffusion 稳定扩散模型 1. 介绍 1.1 文生图功能(Txt2Img) 1.2 图生图功能&…

【攻防世界】file_include (PHP伪协议+过滤器)

打开题目环境: 进行PHP代码审计,发现这是一个文件包含漏洞。 我们尝试利用PHP伪协议中的 php://filter来读取 check.php 中的内容。 构造payload 并提交: 发现payload被过滤掉了,我们就需要尝试使用不同的转换器。 PHP各类转换…

紫光展锐P7885核心板详细参数介绍_5G安卓智能模块开发方案

紫光展锐P7885核心板采用了先进的6nm EUV制程工艺,集成了高性能的应用处理器和金融级安全解决方案,为用户带来了全新的性能体验。 P7885核心板搭载了先进的6nm制程工艺SoC P7885,其中包含四核A76和四核A55,主频可达2.7Ghz&#xf…

Flutter Web 的未来,Wasm Native 即将到来

早在去年 Google I/O 发布 Flutter 3.10 的时候就提到过, Flutter Web 的未来会是 Wasm Native ,当时 Flutter 团队就表示,Flutter Web 的定位不是设计为通用 Web 的框架,类似的 Web 框架现在有很多,而 Flutter 的定位…

黑马HTMLCSS基础

黑马的笔记和资料都是提供好了的,这个文档非常适合回顾复习。我在黑马提供的笔记上做了一些微不足道的补充,以便自己复习查阅。该笔记比较重要的部分是 表单,http请求 第一章. HTML 与 CSS HTML 是什么:即 HyperText Markup lan…

计算机网络——数据链路层(流量传输与可靠传输机制)

计算机网络——数据链路层(流量传输与可靠传输机制) 流量传输与可靠传输机制流量控制可靠传输机制 停止-等待协议无差错情况接收并检测到差错状态确认丢失或迟到状态 停等协议的效率分析后退N帧协议(Go-Back-N,简称GBN&#xff09…

stable diffusion如何下载预处理器?

如何下载预处理器? 具体位置:SD文件>extensions>sd-webui-controlnet>annotator” 把整个文件夹复制到SD的文件夹里面 里面有一个“downloads”文件夹 把这些模型复制到“downloads”文件夹里

kubernetes-dashboard 安装配置

k8s 1.23以上的版本 https://raw.githubusercontent.com/kubernetes/dashboard/v2.7.0/aio/deploy/recommended.yaml 执行命令: kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.7.0/aio/deploy/recommended.yaml 安装完成后&#x…

在岸上是永远学不会游泳的

为了让各位技术宅的师傅们了解如何追女孩,花无缺表哥来投稿啦!!! 在岸上是永远也学不会游泳的,就算是最好的教练来教你也没用,因为你没有去实践。实践是快速学习的最佳手段,将这些方法运用到工…

网络原理 - HTTP / HTTPS(1)——http请求

目录 一、认识HTTP协议 理解 应用层协议 二、fiddler的安装以及介绍 1、fiddler的安装 2、fiddler的介绍 三、HTTP 报文格式 1、http的请求 2、http的响应 五、认识URL 六、关于URL encode 一、认识HTTP协议 HTTP 全称为:“超文本传输协议”,是…