Magic-PDF:端到端PDF文档解析神器 构建高质量RAG必备!

项目结构

流程解析

预处理的作用是判断文档内容是否需要进行OCR识别,如果是普通可编辑的PDF文档,则使用PyMuPDF库提取元信息。

模型层除了常规的OCR、版面结构分析外,还有公式检测模型,可提取公式内容,用于后续把公式转化为Latex格式。但是目前暂无表格内容识别,官方预计1个月之内会放出。

管线层主要是把上面模型的结果进行加工处理。比如把公式转化为Latex格式、图表保存起来成为图片、把文本框进行排序和合并以及过滤掉无用的信息(页眉、页脚等)。

输出层其实就是结果文件夹中的内容。结果文件夹中有layout.pdf、span.pdf、xx_middle.json、xx_model.json、xx_content_list.json、xx.md、images文件夹。

  • layout.pdf 可以看到 版面结构的识别结果


  • span.pdf 可以看到具体每个文本框的内容


  • xx_middle.json 是用OCR或者PDF库解析出的文档元信息,包含文本块类型、内容和坐标。
  • xx_model.json 是版面分析结果的内容,包含文本块的类型、坐标和置信度。
  • xx_content_list.json 中是文档的类型和具体内容,图表则用img_path指定存放的图片的路径。

实践指南

创建一个python环境,建议python3.10以上

conda create -n MinerU python=3.10
conda activate MinerU

接着安装magic-pdfdetectron2这个包

pip install magic-pdf[full-cpu]
pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/
magic-pdf --version

注意查看版本是否在0.6.x以上,否则会有问题。英特尔芯片的Mac电脑由于某些库的依赖原因,只能到0.5.x的版本。对于M系列的芯片,经过实测发现不支持mps加速,还是只能使用CPU。

接着下载模型权重:模型地址
接着把该仓库中的magic-pdf.template.json文件拷贝到本地,修改models-dir为下载到本地的模型路径。

{"models-dir": "/tmp/models"
}

需要注意的是这个路径是绝对路径

总结

优点

  • 比较准确。从上面的图可以看出,无论是可编辑的PDF还是扫描版的PDF,都能非常好的区分出版面中不同类型的部分,而且最终的结果是以Markdown的格式保存的,可以很容易把不同章节、不同自然段按需进行切分。

缺点

  • 硬件支持不够完善,目前存在很多不兼容的情况。M系列芯片暂时无法解决Bug,GPU未测过是否存在其他问题。而用CPU实在是太慢了,10几页的PDF就需要处理约5分钟。
  • 版面结构进行排序和组合貌似用的全是自定义的规则函数,不太方便开发者进行复用或者微调。
  • 表格内容暂时无法识别。目前只能把表格部分提取为图片保存起来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/775825.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows系统常用端口详解

135端口135主要用于Microsoft的远程过程调用(RPC)服务。RPCSS(Remote Procedure Call Subsystem) 服务是 COM 和 DCOM 服务器的服务控制管理器。它执行 COM 和 DCOM 服务器的对象激活请求、对象导出程序解析和分布式垃圾回收。如果此服务被停用或禁用,则使用 COM 或 DCOM 的…

Albumentations库使用

介绍Albumentations的核心使用方法,提供对应测试代码1 Albumentations库介绍 一个好用的开源图像处理库,适用于对RGB、灰度图、多光谱图像,以及对应的mask、边界框和关键点同时变换。通常用于数据增广,是PyTorch生态系统的一部分。 主页:https://albumentations.ai/ 2 核心…

LinkAI RAG知识库平台优化之路

LinkAI RAG知识库平台支持无结构文档、Q&A问答对、多列表格以及网站内容自动导入,并加入了自研的增强解析功能支持对文档中图片以及表格的自动解析。支持基于语义的向量检索和基于关键词的全文检索的增强混合检索功能,生成的回复可以标注答案来源,同时可以在使用记录中查…

14. 迭代器、生成器、模块与包、json模块

1.迭代器 1.1 迭代器介绍 迭代器是用来迭代取值的工具 每一次迭代得到的结果会作为下一次迭代的初始值,单纯的重复并不是迭代# while循环实现迭代取值 a = [1, 2, 3, 4, 5, 6] index = 0 while index < len(a):print(a[index])index += 1 1.2 可迭代对象 内置有_ _iter_ _方…

# 代码随想录二刷(哈希表)

代码随想录二刷(哈希表) 三数之和思路反正对于我来说是真的难想出来。若这道题还是采用哈希表的思路去做,非常麻烦,并且还要考虑去重的操作。所以这道题其实用双指针,是更方便的。具体程序如下: class Solution:def threeSum(self, nums: List[int]) -> List[List[int]]…

ctfshow-web入门-nodejs系列

web334 下载源码后缀改为zip打开即可 先对源码经行一个简单的分析 login.js// 引入Express框架 var express = require(express);// 创建一个路由实例 var router = express.Router();// 引入用户数据,假设user模块导出的是一个包含用户项的对象 var users = require(../modul…

2021年我因为Tab Session Manager丢失数据,好像是研究过一次leveldb的查看/解码方式 但是当时好像因为时间关系没能成功 / chrome .ldb文件

Default\Local Storage\leveldb .ldb2023年下半年我因为chatmindai修改域名,又研究过一次,因为时间关系也没有细究最近,我想查看一下anki的devtool的Local Storage,即https://ankiweb.net/shared/info/31746032这个插件产生的 C:\Users\xxx\AppData\Local\Anki\QtWebEngine…

联合省选 2024 Day2T1 迷宫守卫 题解

联合省选 2024 Day2T1 迷宫守卫 题解 好像距离联合省选已经半年了,前两天看到这题才想起来改,距离分班已经半年了,也算是好好学了半年了,但是还是那么菜,有点绷不住,感觉不如文化课 后来翻到题解区第二篇题解才知道自己赛时想的反悔贪心其实是正解,但是当时啥也不会,主…

小白程序员也要对世界进行第一次的呐喊!

身为程序员对世界的第一声呐喊——Hello World!新建一个文件夹 新建一个目录,并将其命名为Hello.java(关键一步)注意!文件类型显示的是java文件才成功 (文件的后缀要改为java)双击文件,开始编写(本人使用的是Notepad++进行编写) 输入图片中的代码(全部要用英文输入法…

Django模板、模版语言和静态文件

1. templates模板(html)在app目录下创建一个templates目录,用于存放网页模板利用url返回网页点击查看代码 def user_list(request):return render(request,"user_list.html");输入url地址时,会去app目录下的templates目录下寻找名为user_list的HTML文件(根据app…

Cuberite——低配mc服务器的最佳选择

最近白嫖了一个1h1g的服务器,想拿它来开mc服务器,正当我用mcsmanager开服的时候,突然给我报了一条OutOfMemoryError下面就给大家介绍一下Cubreite Cuberite Cuberite is a Minecraft-compatible multiplayer game server that is written in C++ and designed to be efficie…