MM-LLMS 论文笔记

news/2025/3/7 1:37:30/文章来源:https://www.cnblogs.com/mianmaner/p/18756859

介绍

这是一篇多模态大模型的综述

MM-LLM面临的核心挑战是如何有效地将LLM与其他模式的模型连接起来以实现协作推理

建立了一个网站(https://mm-llms.github.io)来跟踪MM-LLM的最新进展并方便大家更新

模型架构

image-20240509123822000

冻结部分不可训练,未冻结部分是可训练的

Modality Encoder:对不同模态的输入进行编码,获取特征

Input Projector:将编码特征与文本特征进行对齐,然后一起送入LLM Backbone。所以这里目标是最小化条件文本生成损失
image-20240509125405151

LLM Backbone:可以进行 zero-shot、few-shot、CoT 等等,它输出的信息包括文本、其他模态的信号和内容

Output Projector:将 LLM 的输出映射到 Modality Generator 可理解的特征 \(H_x\) 中。所以这里目标是最小化 \(H_x\) 与 Modality Generator 的文本表示的距离
image-20240509125438870

Modality Generator:生成不同模态的输出。在训练过程中,groundtruth 首先通过预训练的 VAE 转换为潜在特征,然后使用预训练的 Unet 来计算条件 LDM损失,如下所示
image-20240509132132639

训练过程

分为两个阶段:MM PT 和 MM IT

MM PT

预训练阶段,针对数据集,训练 Input Projector 和 Output Projector,通过优化预定义的目标来实现各个模态数据之间的对齐匹配

MM IT

MM IT 由有监督微调+强化学习组成

使用指令数据集对预先训练的 MM-LLM 进行微调,通过这个过程可以遵循新指令泛化到为见过的任务上,从而具备 zero-shot 的能力

SOTA模型

各个方向的 SOTA 模型汇总图

image-20240509133429291

发展趋势

  • 从专门强调 MM 理解发展到特定模态的生成,并进一步发展到任意模态到任意模态的转换(例如 MiniGPT-4 → MiniGPT-5 → NExT-GPT)
  • 从 MM PT 到 SFT 再到 RLHF,训练流程不断细化,力求更好地符合人类意图,增强模型的对话交互能力(例如BLIP-2→InstructBLIP→DRESS)
  • 拥抱多样化的模态扩展(例如BLIP-2→X-LLM和InstructBLIP→X-InstructBLIP)
  • 纳入更高质量的训练数据集(例如LLaVA → LLaVA1.5)
  • 采用更高效的模型架构,从 BLIP-2 和 DLP 中复杂的 Q-和 P-Former 输入投影仪模块过渡到 VILA 中更简单但有效的线性投影仪

归纳挑战

  • 挑战:更高的图像分辨率可以为模型包含更多的视觉细节,有利于需要细粒度细节的任务。然而,更高的分辨率会导致更长的 token 序列,从而产生额外的训练和推理成本

    方法:最近,Monkey(Li et al., 2023l)提出了一种无需重新训练高分辨率视觉编码器,仅利用低分辨率视觉编码器来增强输入图像分辨率的解决方案,支持高达 1300 × 800 的分辨率。为了理解富文本图像、表格和文档内容,DocPedia (Feng et al., 2023) 引入了一种将视觉编码器分辨率提高到 2560 × 2560 的方法,克服了开源 ViT 中低分辨率性能不佳的限制。

  • VILA 揭示了几个关键发现:
    ①在 LLM Backbone 上执行 PEFT 可以促进深度嵌入对齐,这对于 ICL 至关重要
    ②交错的图像-文本数据被证明是有益的,而单独的图像文本对并不是最优的
    ③在SFT期间将纯文本指令数据与图像文本数据重新混合,不仅解决了纯文本任务的退化问题,而且还提高了VL任务的准确性

未来方向

  • 更强大的模型:模态扩展、大模型多样化、提升多模态数据集质量、强化多模态生成能力
  • 构建一个更具挑战性、更大规模、包含更多模式、使用统一评价标准的基准对于MM-LLM的发展至关重要
  • 轻量化部署
  • 具身智能
  • 持续学习
  • 减轻幻觉现象

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/894903.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MonitorRank 论文笔记

背景 MonitorRank 是最早使用随机游走的策略定位故障根因服务的方法,MonitorRank 把系统的服务分成三类:前端服务:负责接收用户的请求以及进一步调用下游请求以完成用户的请求。 应用服务:负责真正处理用户请求的逻辑。 数据服务:负责提供经过包装的数据。(应用服务和数据…

MicroRank 论文笔记

任务 异常检测->根因定位(服务实例级别)(针对延迟问题) 贡献MicroRank 是第一种通过正常和异常trace提取信息来对微服务应用程序进行根本原因定位的方法 我们提出了一种基于扩展频谱分析的微服务环境中新颖的根本原因定位方法 我们将 OpenTelemetry trace API 纳入 Goog…

Log3T 论文笔记

挑战 ① 基于可用日志先验知识设计的日志解析器性能有限,且不具有泛化性 ② 一些日志解析器在日志本身差异性大时无法正常工作 ③ 劳动密集型模型调整 框架离线训练 使用 WordPiece 进行 Tokenization(子词模型),然后输入到 Transformer 中进行上下文特征集成,然后输入 si…

软件工程-作业2:第一次个人编程作业

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringClassof2023这个作业在哪里 https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringClassof2023/homework/13324这个作业的目标 系统化流程地完成软件开发,使用性能测试工具和单元测试以优化…

LLaVA 论文笔记

介绍 提出了 visual instruction-tuning,这是将指令微调扩展到多模态的首次尝试 相关工作 多模态的指令微调 Agent、指令微调 数据 使用 ChatGPT/GPT-4 来将数据转化为 multimodel instrustion-following data 为每一个图像生成三种 mulmodal instruction-following data,对于…

FastAPI 请求体参数与 Pydantic 模型完全指南:从基础到嵌套模型实战

title: FastAPI 请求体参数与 Pydantic 模型完全指南:从基础到嵌套模型实战 🚀 date: 2025/3/7 updated: 2025/3/7 author: cmdragon excerpt: 本教程深入探讨 FastAPI 请求体参数与 Pydantic 模型的核心机制,涵盖从基础模型定义到嵌套模型的高级用法。通过详细的代码示例…

主机、主机中的Ubuntu虚拟机、与ixm6ull开发板三者互ping且均能联网个人流程记录

1.0 设备连接要求笔记本通过网线连接到开发板,且笔记本通过 usb转type-c线连接到开发板的对应位置(USB TTL那个)。 笔记本需要连接WIFI。 笔记本、开发板、Ubuntu虚拟机启动且能够正常运行。2.0 打开WIFI的网络共享 控制面板 -> 网络和 Internet -> 网络和共享中心,选…

基于PID控制器的六自由度串联机器人控制系统的simulink建模与仿真

1.课题概述 基于PID控制器的六自由度串联机器人控制系统的simulink建模与仿真。2.系统仿真结果 (完整程序运行后无水印) 3.核心程序与模型 版本:MATLAB2022a 4.系统原理简介六自由度串联机器人控制系统是机器人学中的一个核心问题,其中PID控制器因其简单、实用和易于调整…

Windows快捷方式文件相对路径

前言全局说明Windows快捷方式相对路径 通常情况下创建快捷方式,使用的都是绝对路径,如果文件目录迁移到别的地方,不同路径下,那么这个快捷方式就失效了,如果使用相对路径,只要父文件夹不变,那么子文件夹中的快捷方式就能一直有效。一、说明 1.1 环境: Windows 11 家庭版…

基于GARCH-Copula-CVaR模型的金融系统性风险溢出效应matlab模拟仿真

1.程序功能描述 基于GARCH-Copula-CVaR模型的金融系统性风险溢出效应matlab模拟仿真,仿真输出计算违约点,资产价值波动率,信用溢价,信用溢价直方图等指标。 2.测试软件版本以及运行结果展示MATLAB2022A版本运行 (完整程序运行后无水印) 3.核心程序%计算违约点 DP …

Java笔记-17、Web后端基础 Java操作数据库

JDBCsun公司官方定义的一套操作所有关系型数据库的规范,即接口。 各个数据库厂商去实现这套接口,提供数据库驱动jar包。 我们可以使用这套接口(JDBC)编程,真正执行的代码是驱动jar包中的实现类。public void testUpdate() throws Exception {// 注册驱动Class.forName(&qu…

netcore后台服务慎用BackgroundService

在 .NET Core 开发中,BackgroundService 是一个非常方便的后台任务运行方式,但它并不适用于所有场景。 BackgroundService 一时爽,并发火葬场。 BackgroundService 适用于单实例的无状态后台任务,例如:定期清理任务(删除过期数据、日志清理) 轻量级定时任务(如定期检查…