TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

相关链接:arxiv github
关键字:Large Multimodal ModelOCR-FreeDocument UnderstandingText-Centric TasksToken Resampling

摘要

我们提出了TextMonkey,这是一个为文本中心任务量身打造的大型多模态模型(LMM),包括文档问题回答(DocVQA)和场景文本分析。本文介绍了几种改进方法:采用偏移窗口注意力机制和零初始化,我们实现了在更高输入分辨率下的跨窗口连接,并稳定了早期的培训;我们假设图像可能包含多余的代币,并通过使用相似度筛选出重要的代币,我们不仅可以简化代币长度,还可以提高模型的性能。此外,通过扩展我们模型的能力,涵盖文本定位和基础设施,并将位置信息纳入答案,我们提高了可解释性,并最大限度地减少了错觉。此外,TextMonkey还可以通过微调来理解屏幕截图点击的命令。总的来说,我们的方法在各种基准数据集中的性能都得到了显著的提升,分别在场景文本中心VQA,面向文档的VQA和KIE中提高了5.2%,6.9%和2.8%,特别是在OCRBench上的得分为561,超过了以前的开放源码大型多模态模型文档理解。代码将在 https://github.com/Yuliang-Liu/Monkey 上发布。

核心方法

在这里插入图片描述

  • 改进的输入处理策略:TextMonkey采用滑动窗口方法将高分辨率图像划分为窗口块,并利用偏移窗口注意力机制通过零初始化实现跨窗口连接。
  • 代币压缩:通过相似度作为标准,找出重要的代币作为查询,减少了不必要的代币长度,提高了模型性能。
  • 文本定位任务支持:模型扩展了处理任务到文本定位,通过将位置线索纳入答案提高了模型的可靠性和可操作性。
  • 丰富的文本中心多任务处理能力:包括文本接地和文本定位在内的各类文本相关任务的支持。
  • 开源代码发布:代码将在github上提供,以促进其它研究者的进一步工作和模型的应用。

实验说明

TextMonkey在多个基准数据集上的表现是:

MethodScene Text-Centric VQADocument-Oriented VQAKIEOCRBench
TextMonkey61.2%64.3%72.2%558
Other Models59.6 - 62.2%59.8 - 66.7%49.3 - 71.3%511 - 561

重新调整数据集来训练模型后,TextMonkey的文档表现有所提高,尤其是在对文档特定内容的理解和解析能力上提供了明显的改善。

结论

TextMonkey作为一个OCR-Free的大型多模态模型,成功应对了各种文本中心的任务,如文档问题回答和场景文本分析。在多个基准数据集上的表现均显著提升,特别是在OCRBench中,显著超过了以往的开放源码模型。通过结合偏移窗口注意力和代币重采样,该模型展示了其在处理高分辨率文档图片时的高效性和稳定性。随着代码的公开发布,我们期待TextMonkey能够对不同领域的研究者产生更大的影响,并在多模态理解领域中获得进一步应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/521246.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Enzo Life Sciences Cortisol(皮质醇) ELISA kit

皮质醇又称为氢化可的松,是一种由胆固醇合成的类固醇激素。它是肾上腺皮质产生和分泌的主要糖皮质激素。皮质醇在血液中以游离皮质醇的形式存在,或与皮质类固醇结合球蛋白(CBG)结合。皮质醇水平在早上7点左右最高,晚上最低。皮质醇可以调节新…

【ETCD】简介安装常用操作---图文并茂详细讲解

目录 一 简介 1.1 etcd是什么 1.2. 特点 1.3. 使用场景 1.4 关键字 1.5 工作原理 二 安装 2.1 etcd安装前介绍 2.2 安装 2.3 启动 2.4 创建一个etcd服务 三 常用操作 一 简介 1.1 etcd是什么 etcd是CoreOS团队于2013年6月发起的开源项目,它的目标是构建…

多功能线缆光纤验证器-AEM CV-100

TestPro CV100 多功能电缆验证器 屡获殊荣的 TestPro CV100 多功能电缆验证器专为当今的现代智能建筑网络基础设施而设计。 它提供了当今可用的功能最丰富的测试平台,以及允许定制所需的确切测试套件的基于模块化的平台。 智能建筑测试套件(K60 和 K61…

Android视角看鸿蒙第四课(module.json中的各字段含义之descriptionmainElement)修改程序入口

Android视角看鸿蒙第三课(module.json中的各字段含义之description&mainElement) 前言 上编文章了解了module.json中的name和type两个字段的含义及变更字段需要注意的事项,也明白了如何去实现类似Android library的功能。 这篇文章继续了解module.json中的des…

机器学习-面经(part5、KNN和SVM)

8. KNN 8.1 简述一下KNN算法的原理? 一句话概括:KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别 工作原理:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数…

【Educoder数据挖掘实训】异常值检测-值域法

【Educoder数据挖掘实训】异常值检测-值域法 开挖! 这个题中 l o f lof lof算法给的很抽象,先用比较通俗的方式说一下: 首要想法是找到不合群的点,也就是异常点。采用的方法是对局部可达密度进行判断。相较于其他普通的简单基于聚…

ElasticSearch之通过search after和scroll解决深度分页问题

写在前面 通过from,size来进行分页查询时,如下: 当from比较大时会有深度分页问题,问题产生的核心是coordinate node需要从每个分片中获取fromsize条数据,当from比较大,整体需要获取的数据量也会比较大&am…

MongoDB安装教程(附带安装包)

目录 解压安装包 傻瓜式安装 选择安装目录 安装完成 启动验证 验证成功 解压安装包 选择所需要的进行安装 傻瓜式安装 选择安装目录 安装完成 启动验证 mongod --dbpathD:\mongodb\data\db 验证成功

vue 使用谷歌地图 @googlemaps/js-api-loader 进行模糊搜索

<template><div class"map"><div class"mapLeftStyle"><el-inputv-model"input"placeholder"请输入内容"class"controls"input"chnageinput"><i slot"prefix" class"e…

关于JVM的小总结(待补充)

JVM组成及他们之间的关系 装载类子系统字节码执行引擎运行时数据区 装载类子系统 类加载器字节码调节器类加载运行时数据区 字节码执行引擎 运行时数据区 线程私有 虚拟机栈本地方法栈程序计数器 线程共享 堆方法区&#xff08;元空间&#xff09;

SpringBoot配置加载顺序和SpringBoot分离打包:将jar包与lib依赖、配置文件分开

文章目录 一、SpringBoot配置加载顺序1.SpringBoot配置优先级&#xff08;1&#xff09;命令行参数&#xff08;2&#xff09;配置文件 二、SpringBoot分离打包&#xff1a;将jar包与lib依赖、配置文件分开1.pom文件配置2.打包后的目录结构 一、SpringBoot配置加载顺序 官方文…

是什么短波与超短波通信,水利短波通信系统详解

1、短波通信 频率在3—30MHZ。依靠无线电波从电离层反射传播实现通信。实际使用的工作频率与通信线路长度及地理位置有关&#xff0c;而且随昼夜、季节和太阳黑子活动周期而变。 短波通信易受电离层骚扰等活动的影响&#xff0c;而且频率拥挤&#xff0c;干扰严重&#xff0c;通…