Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

相关链接:arxiv
关键字:Vision Language ModelsMulti-modalityHigh-Resolution Visual TokensHigh-Quality DataVLM-guided Generation

摘要

在这项工作中,我们介绍了Mini-Gemini,这是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs)。尽管VLMs在促进基本视觉对话和推理方面取得了进展,但与先进的模型如GPT-4和Gemini相比,性能差距仍然存在。我们试图通过挖掘VLMs的潜力,以实现更好的性能和任何到任何的工作流程,从三个方面缩小这一差距,即高分辨率视觉令牌、高质量数据和VLM引导的生成。为了增强视觉令牌,我们提出使用额外的视觉编码器进行高分辨率细化,而不增加视觉令牌计数。我们进一步构建了一个高质量的数据集,以促进精确的图像理解和基于推理的生成,扩大了当前VLMs的操作范围。总的来说,Mini-Gemini进一步挖掘了VLMs的潜力,并赋予了当前框架图像理解、推理和生成的能力。Mini-Gemini支持一系列密集和MoE大型语言模型(LLMs)从2B到34B。它在几个零样本基准测试中取得了领先的性能,甚至超过了开发的私人模型。代码和模型可在https://github.com/dvlab-research/MiniGemini获取。

核心方法

在这里插入图片描述

  1. 双视觉编码器:Mini-Gemini框架使用双视觉编码器来提供低分辨率的视觉嵌入和高分辨率候选,类似于Gemini星座的合作功能。在推理过程中,低分辨率编码器生成视觉查询,而高分辨率编码器提供候选键和值进行参考。

  2. 补丁信息挖掘:为了增强视觉令牌,我们提出了补丁信息挖掘,通过高分辨率区域和低分辨率视觉查询之间的挖掘来扩展VLMs的潜力。

  3. 文本和图像生成:通过挖掘得到的视觉令牌和输入文本令牌,我们将其连接为LLMs的输入进行自回归生成。Mini-Gemini支持任何到任何的推理,即可以处理图像和文本作为输入和输出。

实验说明

实验结果如下表所示,展示了不同配置的Mini-Gemini在多个基准测试中的性能:

| 方法 | LLM | 分辨率 | VQAT | MMB | MME | MM-Vet | MMMUv | MMMUt | MathVista |
|------|-----|--------|------|-----|-----|---------|---------|-----------|
| Mini-Gemini | Gemma-2B | 336 | 56.2 | 59.8 | 1341/312 | 31.1 | 31.7 | 29.1 | 29.4 |
| Mini-Gemini | Vicuna-7B | 336 | 65.2 | 69.3 | 1523/316 | 40.8 | 36.1 | 32.8 | 31.4 |
| … | … | … | … | … | … | … | … | … |

数据来源包括从公开资源收集的1.2M图像标题对用于模态对齐,以及1.5M单轮或多轮对话用于指令微调。实验中使用了多种数据增强和正则化技术,如RandAugment、Mixup、CutMix和Random Erasing等。此外,还采用了AdamW优化器和余弦衰减学习率调度器进行训练。

结论

我们提出了Mini-Gemini,这是一个流线型且强大的框架,用于多模态视觉语言模型。Mini-Gemini的核心是通过战略性框架设计、丰富的数据质量和扩展的功能范围来挖掘VLMs的潜在能力。我们的精心编译的高质量数据集确保了准确的视觉-语言对齐,并增强了强大的指令遵循能力。此外,我们支持基于推理的生成,并赋予当前VLMs任何到任何的工作流程。在几个零样本基准测试中的广泛实验证明了所提出方法的优越性,它超过了以前的领先方法甚至私人模型。我们希望Mini-Gemini能够成为图像理解和VLM引导生成的强大基准。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/577553.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ATFX汇市:欧元区的2月M1增速为-7.7%,潜在通胀下修,欧元币值受冲击

ATFX汇市:衡量经济体的潜在通胀指标,除了CPI数据、失业率数据外,还有M1、M3数据。昨日,欧洲央行公布了2月份欧元区货币发展报告,其中提到:广义货币总量M3的年增长率从1月份的0.1%上升到2024年2月的0.4%&…

深入理解指针(7)函数指针变量及函数数组(文章最后放置本文所有原码)

一、函数指针变量 什么是函数指针变量呢? 既然是指针变量,那么它指向的一定是地址,而且我们可以通过地址来调用函数的。 函数是否有地址呢?地址是什么? 经过上面的测试可以看到函数也是有地址的,而且其地…

【JVM】Java类加载器 和 双亲委派机制

1、java类加载器的分类 JDK8及之前 启动类加载器,BootStrap Class Loader,加载核心类,加载jre/lib目录下的类,C实现的拓展类加载器, Extension Class Loader,加载java拓展类库,jre/lib/ext目录下,比如javax…

工厂能耗管控物联网解决方案

工厂能耗管控物联网解决方案 工厂能耗管控物联网解决方案是一种创新的、基于先进技术手段的能源管理系统,它深度融合了物联网(IoT)、云计算、大数据分析以及人工智能等前沿科技,以实现对工业生产过程中能源消耗的实时监测、精确计…

Stable Diffusion之核心基础知识和网络结构解析

Stable Diffusion核心基础知识和网络结构解析 一. Stable Diffusion核心基础知识1.1 Stable Diffusion模型工作流程1. 文生图(txt2img)2. 图生图3. 图像优化模块 1.2 Stable Diffusion模型核心基础原理1. 扩散模型的基本原理2. 前向扩散过程详解3. 反向扩散过程详解4. 引入Late…

遥控智能小车的功能内容有哪些?

东莞市酷得智能科技有限公司(以下简称:酷得)2018年成立于松山湖,且在汕头设立办事处。是一家创新型智能电子产品的整体解决方案服务商。酷得也是国内多家优秀芯片厂商的核心代理商,芯片的年出货量在8000万颗以上。包含…

python中raise_for_status方法的作用

文章目录 说明示例1:基本使用示例2:多种异常 说明 raise_for_status() 方法在 Python 的 requests 库中用于在发送 HTTP 请求后检查响应的状态码。如果响应的状态码表示请求未成功(即状态码不是 2xx),则该方法会抛出一…

Python车道线偏离预警

程序示例精选 Python车道线偏离预警 如需安装运行环境或远程调试,见文章底部个人QQ名片,由专业技术人员远程协助! 前言 这篇博客针对《Python车道线偏离预警》编写代码,代码整洁,规则,易读。 学习与应用推…

C语言例4-35:鸡翁一,值钱五;鸡母一,值钱三;鸡雏三,值钱一。百钱买百鸡、问鸡翁、鸡母和鸡雏各几何?

方法一&#xff1a; 代码如下&#xff1a; //鸡翁一&#xff0c;值钱五&#xff1b;鸡母一&#xff0c;值钱三&#xff1b;鸡雏三&#xff0c;值钱一。百钱买百鸡、问鸡翁、鸡母和鸡雏各几何&#xff1f; //方法一&#xff1a; #include<stdio.h> int main(void) {int x…

OpenGL的MVP矩阵理解

OpenGL的MVP矩阵理解 右手坐标系 右手坐标系与左手坐标系都是三维笛卡尔坐标系&#xff0c;他们唯一的不同在于z轴的方向&#xff0c;如下图&#xff0c;左边是左手坐标系&#xff0c;右边是右手坐标系 OpenGL中一般用的是右手坐标系 1.模型坐标系&#xff08;Local Space&…

HarmonyOS实战开发-实现带有卡片的电影应用

介绍 本篇Codelab基于元服务卡片的能力&#xff0c;实现带有卡片的电影应用&#xff0c;介绍卡片的开发过程和生命周期实现。需要完成以下功能&#xff1a; 元服务卡片&#xff0c;用于在桌面上添加2x2或2x4规格元服务卡片。关系型数据库&#xff0c;用于创建、查询、添加、删…

主从复制与读写分离

前言&#xff1a; 在企业应用中&#xff0c;成熟的业务通常数据量都比较大&#xff0c;单台MySQL在安全性、高可用性和高并发方面 都无法满足实际的需求&#xff1f; 配置多台主从数据库服务器以实现读写分离 一 主从复制的工作原理 ①Master节点将数据的改变记录成二进制…