VALSE 2024 Workshop报告分享┆多模态大模型Monkey及其在文档智能中的应用-编程知识

VALSE 2024 Workshop报告分享┆多模态大模型Monkey及其在文档智能中的应用

news/2025/2/22 16:31:24/文章来源:https://blog.csdn.net/audyxiao001/article/details/138583586

2024年视觉与学习青年学者研讨会（VALSE 2024）于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道，方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述，可能与报告人的原意有所不同，敬请读者理解；如报告人认为文章与自己报告的内容差别较大，可以联系公众号删除。

本文对于华中科技大学刘禹良教授所做的报告《多模态大模型Monkey及其在文档智能中的应用》进行总结和分享。

1.报告人简介

刘禹良，华中科技大学人工智能与自动化学院研究员，博士生导师。研究领域包括自动驾驶、文档图像智能、工业检测等。

2.报告概览

汇报中介绍了刘禹良教授团队的研究成果，“Monkey”模型。这一模型在人工智能和计算机视觉领域设定了新的标准，成功解决了现有大型多模态模型在处理高分辨率输入和详细场景理解方面的关键挑战。然后，对该模型的应用进行详细介绍。

3.内容整理

图1 Monkey 的整体架构

图 1展示了“Monkey”模型的整体架构，该架构通过捕捉原始图像的全局特征和分割补丁的局部特征实现高分辨率处理。以下内容是根据刘禹良教授的汇报及其关于“Monkey”模型的研究论文整理得出。相关论文和代码链接已附在文章末尾。

(1)大模型技术正重塑人工智能与人机交互的未来

在全球科技竞争中，人工智能已成为中美和欧盟的战略焦点。中国的二十大报告强调加速推动数据和人工智能驱动的科研范式变革，而大模型技术作为处理复杂任务（如自然语言理解和生成）的高级AI框架，已成为科技企业争夺的制高点。2024年上半年，大模型直接相关的融资事件超过20起，市场规模持续增长。工信部印发关于组织开展2023年未来产业创新任务揭榜挂帅工作的通知，，明确提出在元宇宙、人形机器人、脑机接口等领域的未来产业创新任务。

(2)多模态大模型的突破与应用

多模态大模型无需针对具体任务进行微调，其丰富的预训练知识为文档和场景理解提供了强大支持。这些模型能够处理和整合文本、图像、音频等多种数据类型，产生精确的输出。在场景描述、问答等任务中展现出巨大的成功，并不断从跨模态一致性、视觉-语言融合等多个方面获得能力提升。

(3)创新与挑战

尽管现有的大模型在提升分辨率和数据质量方面取得了进展，但在自主扩张和资源消耗方面仍面临挑战。此外，高清分辨率的多模态大模型“Monkey”已被选为2024年CVPR的亮点论文之一，显示出其在多个领域，包括遥感、医疗、农业、自动驾驶等的广泛适用性。

(4)模型应用展示

1)TextMonkey - 文字多模态人工智能模型

TextMonkey 在多个国际文本处理测试基准中表现卓越，展示了其强大的文档理解能力和优异的可解释性，尤其在OCRBench中超越了当时的开源多模态大模型。

2)OCRBench - 最全面的文字评估集

OCRBench 为评估多模态大模型的OCR能力而设计，涵盖29个数据集和5种类型的文字任务，是文字领域中最全面的评估集。

3)VimTS - 文字端到端识别视觉统一模型

VimTS 能够处理图像和视频中的文字检测和识别问题，支持不同粒度的文字识别，并通过统一的任务处理增强了模型的跨任务能力。

4)GLEE - 纯视觉目标跟踪大模型

GLEE 能一次性处理图像和视频中几乎所有的目标感知任务，支持多种交互方式和开放词表的目标检测、分割和跟踪。

5)EducationMonkey - 教育视频问答大模型

EducationMonkey 专门处理教育视频内容，能够理解由幻灯片和讲稿组成的视频，并能根据上下文连贯性回答相关问题。

6)PDFMonkey - 多模态大模型

PDFMonkey 支持论文PDF文档的文本和图表的联合理解与问答，采用全文解析、稀疏采样和多模态问答的技术路线，构建了预训练数据集和评测基准。

7)Open-Oracle - 人工智能辅助甲骨文破译大模型

Open-Oracle 是一个基于人工智能的甲骨文识别和解释系统，旨在辅助破译甲骨文，同时推动甲骨文的大众化和文化传承。

(5)未来展望

更轻量化的设计：未来的多模态大模型将通过硬件优化和高效的微调方式朝向更加轻量化的设计发展，这将使模型能在较低的算力需求下运行，同时保持或提高其性能。

更依赖于视觉基础模型：模型将更多依赖于视觉基础模型，通过上下文学习的方式处理和理解视觉数据，以更好地应对海量数据的挑战。

垂直领域的专属多模态大模型：未来将开发更多针对特定垂直领域的多模态大模型，这些模型将进行多模态指令的微调，深入理解并满足特定领域的需求和挑战，特别是在处理复杂视觉信息时，如医疗、法律、教育或交通等领域。

跨模态协同学习：未来的多模态模型将更加重视跨模态之间的协同学习，使模型能够更有效地结合视觉基础模型与大语言模型，从而提升处理能力。

持续学习和在线学习能力：未来的多模态模型将具备更强的持续学习和在线学习能力，使其能够不断从新数据和实时反馈中自主学习，持续更新和优化其性能。

Monkey代码下载链接：https://github.com/Yuliang-Liu/Monkey。

Monkey论文下载链接：https://arxiv.org/abs/2311.06607。

TextMonkey论文下载链接：https://arxiv.org/abs/2403.04473。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/679466.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

[MySQL数据库] Java的JDBC编程(MySQL数据库基础操作完结)

[MySQL数据库] Java的JDBC编程(MySQL数据库基础操作完结)

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏:🍕 Collection与数据结构 (91平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 🧀Java …

阅读更多...

添砖Java之路其二——基本数据类型，scanner，字符拼接。

添砖Java之路其二——基本数据类型，scanner，字符拼接。

目录基本数据类型： 编辑 Scanner: 字符拼接： 课后小题： 基本数据类型： 如图可见：Java里面有八种基本数据类型。注意：在其中我们需要注意的是int默认整型数据，double是默认浮点型数据。因…

阅读更多...

JAVA基础之jsp标准标签

JAVA基础之jsp标准标签

jsp动作标签实现实例化一个实体类 <jsp:useBean id"标识符" class"java类名" scope"作用范围"> 传统的java方式实例化一个实体类 Users user new Users(); <%%> id: 对象名 * class:类创建对象时,完全限定名(包名…

阅读更多...

pytest教程-40-钩子函数-pytest_runtest_call

pytest教程-40-钩子函数-pytest_runtest_call

领取资料，咨询答疑，请➕wei: June__Go 上一小节我们学习了pytest_runtest_setup钩子函数的使用方法，本小节我们讲解一下pytest_runtest_call钩子函数的使用方法。 pytest_runtest_call 钩子函数在 pytest 调用测试函数（即测试用…

阅读更多...

如何进行Go语言的性能测试和调优？

如何进行Go语言的性能测试和调优？

文章目录开篇一、性能测试1. 使用标准库中的testing包2. 使用第三方工具二、性能调优1. 优化算法和数据结构2. 减少不必要的内存分配和垃圾回收3. 并发和并行结尾开篇 Go语言以其出色的性能和简洁的语法受到了广大开发者的喜爱。然而，在实际开发中，…

阅读更多...

IO 5.8日

IO 5.8日

1：使用 dup2 实现错误日志功能使用 write 和 read 实现文件的拷贝功能，注意，代码中所有函数后面，紧跟perror输出错误信息，要求这些错误信息重定向到错误日志 err.txt 中去 2：判断一个文件是否拥有用户可写…

阅读更多...

Python爬虫基础知识学习（以爬取某二手房数据、某博数据与某红薯（书）评论数据为例）

Python爬虫基础知识学习（以爬取某二手房数据、某博数据与某红薯（书）评论数据为例）

一、爬虫基础流程爬虫的过程模块化，基本上可以归纳为以下几个步骤： 1、分析网页URL：打开你想要爬取数据的网站，然后寻找真实的页面数据URL地址； 2、请求网页数据：模拟请求网页数据，这里我们介…

阅读更多...

jmeter控制器讲解

jmeter控制器讲解

1，随机顺序控制器和随机控制器的区别：随机顺序控制器下所有的接口都会执行，只是执行顺序是随机的，随机控制器下所有的接口中随机执行一个接口，其余接口不执行。

阅读更多...

Python数据可视化------地图

Python数据可视化------地图

基础地图使用 # 地图基本演示 # 导包 from pyecharts.charts import Map from pyecharts.options import TitleOpts, VisualMapOpts# 准备地图对象 cmap Map() # 准备数据（列表） data [("北京市", 99), ("上海市", 199), ("…

阅读更多...

自动驾驶主流芯片及平台架构（四）华为、高通、英伟达高算力平台

自动驾驶主流芯片及平台架构（四）华为、高通、英伟达高算力平台

上一章节有提到低算力的自动驾驶平台，本章内容重点介绍高算力的自动驾驶平台，华为、高通、英伟达。华为自动驾驶MDC平台方案介绍以整车数字架构为基础，全面管理软硬件的复杂性，并确保整车的可靠性：我们提出华为CCAVe…

阅读更多...

机器视觉系统-条形光源安装位置计算

机器视觉系统-条形光源安装位置计算

使用条形光对反光材质物体打光时，常常出现强烈的光斑反射，影响图像处理。如果不想图像中出现光源的光斑，可以通过计算得出条形光源的安装范围。检则PCB板上的二维码字符，使用两个条形光打光的效果图以及等效模型： …

阅读更多...

我独自升级崛起账号注册我独自升级怎么注册账号

我独自升级崛起账号注册我独自升级怎么注册账号

近期，《我独自升级》这部动画凭借爆棚的人气，在各大平台上掀起了一阵观看热潮，其影响力不容小觑。借此时机，韩国游戏巨头网石集团敏捷响应，顺势推出了同名游戏《我独自升级：ARISE》，为粉丝们搭建…

阅读更多...

推荐文章

最新文章