【PaperReading】2. MM-VID

Category

Content

论文题目

MM-VID: Advancing Video Understanding with GPT-4V(ision)

作者

Kevin Lin, Faisal Ahmed, Linjie Li, Chung-Ching Lin, Ehsan Azarnasab, Zhengyuan Yang, Jianfeng Wang, Lin Liang, Zicheng Liu, Yumao Lu, Ce Liu, Lijuan Wang (Microsoft Azure AI)

  • Kevin Lin, 新加坡国立大学Show实验室

另一篇论文:EgoVLP: https://arxiv.org/pdf/2206.01670.pdf EgoVLPv2:https://github.com/facebookresearch/EgoVLPv2

他的主页:https://github.com/QinghongLin

他也是VLog的作者以及 UniVTG 的作者

发表年份

2023

摘要

提出了MM-VID,一个综合系统,结合了GPT-4V和专门的视觉、音频和语音工具,以促进高级视频理解。MM-VID旨在应对长篇视频和复杂任务的挑战,如在长时间内容中进行推理和理解跨越多集的故事情节。MM-VID使用GPT-4V进行视频到脚本的生成,将多模态元素转录为长文本脚本,从而为大型语言模型(LLM)实现视频理解铺平了道路。

引言

探讨了如何理解长视频,特别是那些跨越一个小时以上的视频。这是一个复杂的任务,需要能够分析图像和音频序列的高级方法。这一挑战还包括从各种来源提取信息,如区分讲话者、识别角色和维持叙事连贯性。

主要内容

MM-VID包括四个模块:多模态预处理、外部知识收集、剪辑级视频描述生成和脚本生成。我们详细描述了每个模块。MM-VID从输入的视频文件开始,输出描述视频内容的脚本,使LLM能够实现各种视频理解功能。

实验

基于MM-REACT代码库实现了MM-VID,并使用Azure Cognitive Services API提供的自动语音识别(ASR)工具,以及PySceneDetect进行场景检测。我们讨论了MM-VID的不同能力,例如基于脚本的问答、多模态推理、长时视频理解、多视频集分析、角色识别、扬声器识别和音频描述生成等。我们还进行了用户研究,探索了MM-VID对视觉障碍人群的潜力。

结论

介绍了MM-VID,一个与GPT-4V协同工作的系统,用于推进视频理解。MM-VID利用GPT-4V将视频内容转录成长而详细的脚本,从而丰富LLM的高级视频理解能力。实验结果表明MM-VID在处理挑战性任务方面的有效性,包括理解长达一小时的视频、跨多集的分析、识别角色和发言者以及与视频游戏和图形用户界面的互动。此外,我们进行了广泛的用户研究,从不同用户群体那里收集反馈。

阅读心得

c707d9fb84067bd335614f8fec7f8b3a.png

首先,这篇文章没有代码

就是提出了一个整合体,把几个模型(主要是两个预处理工具+GPT4v+GPT4)整合起来用来给一个video生成脚本。

运行的话估计是和VLog那个repo一样,需要online的调用openai接口服务(api_key).

分5步实现:

step1: pre-processing - scene detection (使用工具PySceneDetect,一个视频处理工具可以检测一些场景切换,剪辑等内容)

step2: pre-processing - automatic speech recognition (ASR) (语音处理工具)

step3: The input video is then split into multiple clips according to the scene detection algorithm (分割整个video为小片段10s)

step4: employ GPT-4V, which takes the clip-level video frames as input and generates a detailed description for each video clip

step5: GPT-4 is adopted to generate a coherent script for the full video, conditioning on the clip-level video descriptions, ASR, and video metadata if available

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/344018.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蚂蚁爱购--靠谱的SpringBoot项目

简介 这是一个靠谱的SpringBoot项目实战,名字叫蚂蚁爱购。从零开发项目,视频加文档,十天就能学会开发JavaWeb项目。 教程路线是:搭建环境> 安装软件> 创建项目> 添加依赖和配置> 通过表生成代码> 编写Java代码&g…

Spring Boot - Application Events 的发布顺序_ApplicationPreparedEvent

文章目录 Pre概述Code源码分析 Pre Spring Boot - Application Events 的发布顺序_ApplicationEnvironmentPreparedEvent 概述 Spring Boot 的广播机制是基于观察者模式实现的,它允许在 Spring 应用程序中发布和监听事件。这种机制的主要目的是为了实现解耦&#…

统计学-R语言-3

文章目录 前言给直方图增加正态曲线的不恰当之处直方图与条形图的区别核密度图时间序列图洛伦茨曲线计算绘制洛伦茨曲线所需的各百分比数值绘制洛伦茨曲线 练习 前言 本篇文章是介绍对数据的部分图形可视化的图型展现。 给直方图增加正态曲线的不恰当之处 需要注意的是&#…

【生产者消费者模型的 Java 实现】

文章目录 前言传统派维新派 前言 题目:一个初始值为零的变量,多个线程对其交替操作,分别加1减1 实现步骤: 线程操作资源类判断,干活,通知防止虚假唤醒机制,即:多线程的判断需要用…

PostMan、LoadRunner进行并发压测流程

需求 两个记账接口在同一时间大量处理同一账户账务时,锁表顺序不同导致死锁,在修改完代码后模拟生产记账流程进行测试,需要对两个接口进行并发测试。 在进行压测的时候,需要对流水号进行递增。 PostMan处理流程 1. 新建Collection…

Qt QComboBox组合框控件

文章目录 1 属性和方法1.1 文本1.2 图标1.3 插入和删除1.4 信号和槽 2 实例2.1 布局2.2 代码实现 Qt中的组合框是集按钮和下拉列表体的控件,,它占用的屏幕空间很小,对应的类是QComboBox 1 属性和方法 QComboBox有很多属性,完整的…

html代码

1、Echart各种图表示例 <!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title>ECharts 箱线图示例</title> <!-- 引入 ECharts 文件 --> <script src"https://cdn.jsdelivr.net/npm/ech…

CRLF漏洞靶场记录

搭建 利用 docker 搭建 vulhub 靶场 git clone https://github.com/vulhub/vulhub.git 进入 /vulhub/nginx/insecure-configuration 目录 启动前关闭现有的 8080、8081、8082 端口服务&#xff0c;避免端口占用 docker-compose up -d 进入容器 docker exec -it insecure-…

Invalid bound statement(只有调用IService接口这一层会报错的)

问题描述:controller直接调用实现类可以,但是一旦调用IService这个接口这一层就报错. 找遍了大家都说是xml没对应好,但是我确实都可以一路往下跳,真的对应好了.结果发现是 MapperScan写错了,如下才是对的. MapperScan的作用是不需要在mapper上一直写注解了,只要启动类上写好就放…

统一格式,无限创意:高效管理不同格式图片批量转换

在数字时代&#xff0c;图片格式的多样性带来了管理上的不便。为了满足不同的需求&#xff0c;我们经常需要将大量图片转换为统一的格式。那么&#xff0c;有没有一种简单、高效的方法来解决这个问题呢&#xff1f;答案是肯定的&#xff01;今天&#xff0c;我们将为您介绍一款…

档案数字化怎样快速整理资料

对于机构和组织来说&#xff0c;档案数字化是一个重要的信息管理和保护措施。要快速整理资料进行档案数字化&#xff0c;可以遵循以下步骤&#xff1a; 1. 准备工具和设备&#xff1a;确保有一台计算机、扫描仪和相关软件。 2. 分类和组织资料&#xff1a;先将资料分类&#xf…

在CentOS中,对静态HTTP服务的性能监控

在CentOS中&#xff0c;对静态HTTP服务的性能监控和日志管理是确保系统稳定运行和及时发现潜在问题的关键。以下是对这一主题的详细探讨。 性能监控 使用工具监控&#xff1a;top、htop、vmstat、iostat等工具可以用来监控CPU、内存、磁盘I/O等关键性能指标。这些工具可以实时…