DLAFormer:微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024

news/2024/11/15 9:23:44/文章来源:https://www.cnblogs.com/VincentLee/p/18373127

论文提出新颖的基于Transformer的端到端方法DLAFormer,在统一的模型中集成多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。为了实现这一目标,将各种DLA子任务视为关系预测问题并提出了统一标签空间方法,使得统一关系预测模块能够有效而高效地同时处理这些任务

来源:晓飞的算法工程笔记 公众号

论文: DLAFormer: An End-to-End Transformer For Document Layout Analysis

  • 论文地址:https://arxiv.org/abs/2405.11757

Introduction


  文档布局分析(DLA)是从文档图像中恢复文档的物理结构和逻辑结构的过程,包括物理布局分析和逻辑结构分析。在给定输入文档图像的情况下,物理布局分析旨在识别感兴趣的物理同质区域(也称为页面对象),如表格、图形对象、数学公式和不同类型的文本区域。逻辑结构分析旨在为每个识别出的区域分配逻辑角色(例如标题、章节标题、页眉、页脚、段落等),并确定它们之间的逻辑关系(例如阅读顺序关系)。文档布局分析在推动对文档内容进行理解方面发挥着至关重要的作用,实现了各种应用,如文档数字化、转换、存档和检索。然而,由于文档布局中固有复杂多样的内容和错综复杂性,使得该问题具有极大挑战性。

  文档布局分析包括许多复杂的子任务,如图形页面对象检测、文本区域检测、逻辑角色分类、阅读顺序预测等。虽然先前的研究主要集中在利用专门的模型来解决这些单独的子任务,但将这些子任务整合起来的兴趣与日俱增,将DLA子任务集成到一个连贯框架中是提高效率和有效性的有前途的途径。为了实现这一愿景,最近的一些倡议已经开始采用更全面的方法,设计了多分支或多阶段框架,能够同时处理几个子任务。虽然这些方法在某些DLA基准测试中表现不错,多分支或多阶段框架可能会在解决这些DLA子问题时引入级联错误,也会带来可扩展性挑战并且难以容纳额外任务。

  论文提出了DLAFormer,一种基于Transformer的端到端方法用于文档布局分析。与通常采用多分支或多阶段架构的传统方法不同,DLAFormer通过将各种DLA子任务(如文本区域检测、逻辑角色分类和阅读顺序预测)视为关系预测问题来简化训练过程。这些任务的标签被统一到一个单一的、全面的标签空间中,从而简化了学习机制。DLAFormer建立在受DETR启发的编码器-解码器Transformer架构之上,能够同时推断所有关系,通过一个统一的关系预测模块实现端到端训练过程。受可变形DETR启发,论文引入了新颖的类型查询来捕捉各种页面对象的分类信息。这增强了转换器解码器中内容查询语义上相关性信息获取能力,改善了模型对这些DLA子任务的处理能力。此外,DLAFormer采用粗到精策略来精确识别文档图像中的图形页面对象。DLAFormer具有以下几个优点:

  1. 在灵活查询机制和统一标签空间方法下,DLAFormer展示出卓越可扩展性,并无缝集成新型DLA任务进入框架中。
  2. 新关系标签可以无缝融入到统一标签空间中,并且新元素类型可以无缝地作为新类型查询进行处理。在统一标签空间下使用统一关系预测模块可以在单次传递中预测所有关系,可以更加有效和高效地捕捉这些布局单元之间潜在联系。
  3. DLAFormer通过自注意机制融合鲁棒背景信息来增强功能,并且通过交互注意机制实现对全局和局部文档布局信息进行不同关注。

  本文的主要贡献可以总结如下:

  1. 提出了DLAFormer,一种新颖的基于Transformer的端到端方法,用于文档布局分析,将图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测等任务整合到一个统一的模型中。

  2. 将各种文档布局分析子任务(如文本区域检测、逻辑角色分类和阅读顺序预测)视为关系预测问题,并提出了一种统一标签空间方法,使统一的关系预测模块能够同时有效和高效地处理这些任务。

  3. 实验结果表明,DLAFormer在两个文档布局分析基准测试上优于先前采用多分支或多阶段架构处理多任务的方法。

Problem Definition


  一个文档图像本质上包含多种区域,包括文本区域和非文本区域。文本区域作为书面内容的语义单元,包括按照自然阅读顺序排列的文本行,并与逻辑标签相关联,例如段落、列表/列表项、标题、章节标题、页眉、页脚、脚注和标题说明。非文本区域通常包括表格、图形和数学公式等图形元素。这些区域之间通常存在多种逻辑关系,其中最常见的是阅读顺序关系。

  因此,论文定义了三种不同类型的关系:区内关系、区间关系和逻辑角色关系。这些关系旨在将基本文本单元(如文本行)分组为连贯的文本区域,并探索这些区域之间的逻辑连接。具体而言,给定由 \(N\) 个文本行 \([T_1, T_2, ..., T_N]\)\(M\) 个图形对象 \([G_1, G_2, ..., G_M]\) 组成的文档图像 \(D\) ,定义关系如下:

  1. 如图1所示,考虑每个文本区域,其中包括按自然阅读顺序排列的多个文本行。为同一文本区域内所有相邻的文本行建立区内关系。对于只包含单个文本行的文本区域,将该文本行的关系指定为自引用关系。

  2. 为了深入研究这些文本区域和非文本区域之间的逻辑连接,构建了展示逻辑连接的所有区域对之间的区间关系。例如,如图1所示,在两个相邻段落之间以及表格与其对应的标题或脚注之间建立了一个区间关系。

  3. 如图1所示,勾勒出各种逻辑角色单元,包括标题、章节标题、段落、标题等。鉴于每个文本区域都被分配了一个逻辑角色,在文本区域中的每个文本行与其对应的逻辑角色单元之间建立了逻辑角色关系。

  通过定义这些关系,将各种DLA子任务(如文本区域检测、逻辑角色分类和阅读顺序预测)作为关系预测挑战来框定,并将不同关系预测任务的标签合并到一个统一的标签空间中,从而利用一个统一模型同时处理这些任务。

Methodology


Model Overview

  利用统一标签空间的新视角,论文提出了DLAFormer,一种基于Transformer的端到端文档布局分析方法。DLAFormer遵循DETR类似的模型架构,包括骨干网络、多层Transformer编码器、多层Transformer解码器、统一关系预测头和粗到细的检测头。

  整个流程如图2所示,给定一个文档图像:

  1. 使用ResNetSwin Transformer等骨干网络提取多尺度特征 \(\{C_3,C_4,C_5\}\) ,然后将这些特征与相应的位置嵌入一起输入到Transformer编码器中。为了增强处理多尺度特征的计算效率,集成了一个可变形Transformer编码器来增强这些提取的特征。在编码器中进行特征增强后,采用类型查询选择策略来获取每个潜在图形对象提议的参考框和类别标签。
  2. 对于给定文档图像中的文本行,利用PDF解析器或OCR引擎提取它们的边界框。这些图形对象提议和文本行将作为查询并输入到Transformer解码器中。
  3. 为了增强这些查询的物理含义,并为各种类型的查询从不同区域自适应地捕获特征,论文引入了一种类型查询初始化模块,将类型查询初始化为内容查询,以供后续的解码器使用。
  4. 在获取位置查询、内容查询和它们的参考框之后,利用可变形Transformer解码器来增强这些查询。这涉及到将自注意力模块纳入其中以模拟这些查询之间的交互,同时采用可变形交叉注意力模块来从多尺度特征图中捕获全局和局部布局信息。受Deformable DETR的启发,采用粗到细的回归策略来逐层迭代地细化图形对象查询的参考框。
  5. 为了揭示这些查询之间的逻辑连接,我们引入了一个统一的关系预测头,有效且高效地同时处理关系预测任务。

Type-wise Query Selection

  在DETRDAB-DETR中,解码器查询是静态嵌入,不包含任何特定于单个图像的编码器特征。这些模型直接从训练数据中学习锚点或位置查询,并将内容查询初始化为全零向量。为了增强改进解码器查询的先验知识,Deformable DETR引入了一种机制,其中来自编码器的多尺度特征被输入到一个带有二元分类器的辅助检测头部。基于每个编码器特征的对象得分选择前K个特征,用以初始化位置和内容查询。同时,相应的预测框被用来初始化参考框。为了解决由选定的编码器特征引起的解码器潜在歧义和混淆问题,DINO提出了一种混合查询选择方法。该方法仅有选择性地使用top-K个特征来增强位置查询,可学习内容查询保持与之前一样不变。

  尽管DINO的方法带来了显著的改进,但可学习内容查询的不清晰物理含义仍然是一个问题。为了解决这个问题,论文引入了一种类型化查询选择策略,利用潜在的类别信息来初始化内容查询,从而摆脱了使用“静态”内容查询的方式。由于各种类型的图形对象(如公式、表格和图表)之间在视觉特征上存在显著差异,通过使用类别信息初始化内容查询可以使这些查询自适应地捕捉到解码器中关键特征。具体而言,用多分类器替换辅助检测头部中的二元分类器以区分每个选定特征的类别。虽然预测参考框仍然被用于初始化位置查询,但预测类别被传递到后续的类型化查询初始化模块中。在该模块内,为每种类型的查询分配一个可学习类型化内容查询。

Type-wise Query Initialization Module

  论文引入了一种类型化查询初始化模块,以标准化不同查询之间的逻辑关系建模,确保输入解码器的统一性。如图2所示,类型化查询初始化模块将三个组件作为输入:解码器输出的图形对象提议的参考框和类别、OCR引擎或PDF解析器提取的文本行的边界框、预定义的逻辑角色类型。

  对于来自编码器的图形对象提议,通过将正弦位置编码应用于参考框来初始化位置查询。同时,为每个类别定义可学习特征并通过选择相应的特征来初始化内容查询。对于文本行也采用类似的方法,先根据边界框初始化位置查询,然后为这些文本行定义一个独特的可学习特征,作为内容查询的初始化。

  以前的逻辑角色分类方法通常使用静态参数分类器,将其视为简单的多类分类任务。受动态算法的启发,将逻辑角色分类重新定义为关系预测问题。在这个框架中,为预定义的逻辑角色建立了位置和内容查询,例如标题、章节标题、说明等。这种方法允许逻辑角色查询动态地适应其特征提取过程到每个图像的具体情况。然后,图像中的每个基本单元都被赋予预测指向这些动态逻辑角色查询的指针的任务,增强了模型对独特图像内容的适应性和响应能力。此外,论文为每种逻辑角色类型使用可学习特征作为内容查询初始化。为了查询对象的结构统一性,为每种逻辑角色类型定义相应的可学习参考框。在训练过程中,引入辅助的有监督将属于特定逻辑角色的所有查询的联合框作为该角色的目标框。

Unified Relation Prediction Head

  在解码器层的增强过程中,包括文本行查询、图形对象查询和逻辑角色查询在内的三种类型的查询被输入到统一关系预测头中,以揭示这些查询之间的逻辑连接。论文定义了三种不同类型的关系:区域内关系、区域间关系和逻辑角色关系。为了有效且高效地同时处理这些关系预测任务,引入了一种统一的标签空间方法,如图3所示。具体而言,定义一个标签矩阵 \(M \in \mathbb{Z}^{H\times W}\) ,其中第 \(i\) 行和第 \(j\) 列中的每个元素可以取四个可能的值。以图3为例,标签矩阵中的空单元格表示没有从第 \(i\) 个查询指向第 \(j\) 个查询的逻辑关系。另外三种类型的单元格表示三种预定义的关系,每种关系都有其独特的解释。有了这个统一的标签空间,统一关系预测头由两个模块组成:关系预测模块和关系分类模块。

  • Relation Prediction Module

  考虑到文本行/图形对象查询之间的逻辑关系及其与逻辑角色查询之间的联系,将所有文本行和图形对象查询归类为 \(\{q_1, q_2, ..., q_H\}\),将逻辑角色查询归类为 \(\{q_{H+1}, q_{H+2}, ..., q_{W}\}\)。按以下方法计算代表 \(q_i\)\(q_j\) 之间逻辑关系概率的分数 \(s_{ij}\)

\[\begin{align} \label{relation_score} f_{ij} = FC^r_q(q_i) \circ FC^r_k(q_j), i\leq H, j \leq W \\ s_{ij} = \begin{cases} \frac{\exp(f_{ij})}{\sum_{j=1}^{H} \exp(f_{ij})}, & j\leq H \\ \\ \frac{\exp(f_{ij})}{\sum_{j=H+1}^{W} \exp(f_{ij})},& H < j \leq W \\ \end{cases} \end{align} \]

  其中, \(FC^r_q\)\(FC^r_k\) 分别表示具有1,024个节点的单个全连接层,用于将 \(q_i\)\(q_j\) 映射到不同的特征空间; \(\circ\) 表示点积操作。

  • Relation Classification Module

  使用多类分类器,通过计算不同类别的概率分布来确定 \(q_i\)\(q_j\) 之间的关系类型:

\[\begin{align} p_{ij} = BiLinear(FC^c_q(q_{i}), FC^c_k(q_{j})), i\leq H, j \leq W \\ c_{ij} = argmax(p_{ij}) \end{align} \]

  其中, \(FC^c_q\)\(FC^c_k\) 都表示具有1,024个节点的单个全连接层; \(BiLinear\) 表示双线性分类器; \(argmax\) 用于确定概率分布 \(p_{ij}\) 中具有最高值的索引 \(c_{ij}\) ,作为预测的关系类型。

Optimization

  在DLAFormer中,采用了与Deformable DETR相同的检测头部,只是在编码器中将二元分类器替换为多类分类器,检测头部的优化遵循Deformable DETR中概述的训练范式。在训练过程中,在解码器的每一层都加入了共享的统一关系预测头部以促进训练。所有这些关系预测模块和关系分类模块都一致地使用softmax交叉熵作为它们的损失函数进行有效优化。模型的整体损失由聚合每个预测头部的单个损失确定。

Experiments




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/785266.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySql Excel 数据导入

mysql工具:Navicat Premium 15 导入文件:file_Excel.xlsx 1.选择要导入到的表,右键选择导入向导,先择excel, 2.选择导入的数据文件,勾选excel的表名 3.设置字段选项,通配符 4.选择目标表,也可以自动新建表 5.字段对应关系展示,不匹配的会跳过 6.导入模式,追加或覆盖,…

Debian12+openresty1.25.3.2 部署 markdown在线编辑器 Editor.md

openresty的下载安装步骤参考: http://openresty.org/cn/linux-packages.html#debian 安装完成后:conf目录: /etc/openresty -> /usr/local/openresty/nginx/conf/html目录: /usr/local/openresty/nginx/htmlEditor.md 部署: cd /usr/local/openresty/nginx/htmlgit cl…

SLAB:华为开源,通过线性注意力和PRepBN提升Transformer效率 | ICML 2024

论文提出了包括渐进重参数化批归一化和简化线性注意力在内的新策略,以获取高效的Transformer架构。在训练过程中逐步将LayerNorm替换为重参数化批归一化,以实现无损准确率,同时在推理阶段利用BatchNorm的高效优势。此外,论文设计了一种简化的线性注意力机制,其在计算成本较…

神了!两个开源的高仿外卖项目!

大家好,我是 Java陈序员。 今天,给大家推荐两个高仿的外卖项目!关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。高仿饿了么 项目简介 vue2-elm —— 一个基于 Vue2 + Vuex 构建具有 45 个页面的高仿饿了么项目,涉及注册、登…

C++ wsl2 ubuntu 环境配置

目前学习C++,配合Ubuntu进行开发, IDE 使用Clion,这里记录一下环境准备 WSL2 C++一般是用在linux下,这里就用Ubuntu进行开发,考虑到window系统,这里准备用wsl2. 虚拟化 wsl2 要系统支持虚拟化,一般在bios中进行处理,成功之后,任务管理器 --> 性能适用于Linux的Wind…

监狱单位如何选择适合的FTP传输替代方案?

监狱单位是我国司法体系中的重要组成部分,监狱对于维持社会稳定也有重要作用。监狱的正常运作中,少不了文件的传输。由于监狱的封闭性和特殊性,所有传输到监狱的文件都需要经过严格的审核和登记手续,以确保文件的安全性和合法性。同时,监狱也会根据实际需要和规定对文件进…

043、Vue3+TypeScript基础,pinia库使用action,在函数中对存储数据进行修改

01、main.js代码如下:// 引入createApp用于创建Vue实例 import {createApp} from vue // 引入App.vue根组件 import App from ./App.vue//第一步:引入pinia import {createPinia} from piniaconst app = createApp(App);//第二步:创建pinia实例 const pinia = createPinia()…

【内网渗透系列】域内权限划分

域本地组 成员范围:林中所有的用户、全局组、通用组、本域的域本地组。 作用范围:本域。 用途:给域内的资源设置访问权限。 举例:test域有一台打印机P,test域中的用户A和B需要有访问权,新建域本地组DL,给域本地组DL赋予访问打印机P的权限,把用户A和B加到域本地组DL即可…

眼图分析

眼图分析 简介 眼图作为分析高速互连系统信号完整性的工具,其包含了十分丰富的信息。所谓眼图就是将高速数字信号不同位置的数据比特按照时钟的间隔叠加在一起自然形成的一个统计分布图。示波器测量的信号是一段时间的波形,主要反映的是细节信息,但是眼图反映的是传输链路上…

【OS系列】程序、进程与线程之区别大揭秘,一图读懂胜千言

1. 程序(Program) 程序是一组指令的集合,它存储在磁盘上,是一个静态的实体。程序本身并不执行任何操作,它只是提供了一个执行的蓝图。例如,一个编译好的可执行文件(如Windows的.exe文件)就是一个程序。2. 进程(Process) 进程是程序的一次执行实例,是操作系统进行资源…

【powe=osc=pallr】【DDR】 【AHD】 【USB-ADC】 【SD-EMMC】 【AUDIO】 【MIPICSI-AHD】 【MIPIDSI-LCDC】 【LDDDR4】 【EMMC】 【TYPE-C】 【IMX307】 【AHD-CON】 【LCD-CON-POWER】 【WIFI】 【AUDIO-EXT】 【POWER-IN】 【POWER-VCC-NPU-EPU】 【PMIC】…

CF1693F题解

备注 发表时间:2023-06-17 21:51 前言 yny 学长来 cdqz 讲课,写一篇讲课的题的题解纪念一下。 题意 给你一个 01 序列,有以下操作:选择一段区间 设 \(cnt_0,cnt_1\) 分别表示该区间中 0 和 1 的数量。 花费 \(|cnt_0-cnt_1|+1\) 的代价对区间进行升序排序。求最小代价。 思…