PDF转换工具Marker、MinerU、Markitdown对比分析

news/2024/12/23 12:32:49/文章来源:https://www.cnblogs.com/JCpeng/p/18623713

1 文件格式

插件

Marker

MinerU

Markitdown

magic-pdf

magic-doc

支持的文件格式

PDF、EPUB 和 MOBI

PDF

PPT、PPTX、DOC、DOCX、PDF

PDF,

PowerPoint,

Word,

Excel

Images (EXIF metadata and OCR),

Audio (EXIF metadata and speech transcription),

HTML,

CSV,

JSON,

XML,

ZIP files (iterates over contents)

图片

转化成jpeg

转化成jpeg

提取文字

提取文字,但Word和PPT里面的图片无法识别

表格

可准确识别

可准确识别

识别效果一般

识别效果一般

公式

可准确识别

可准确识别

效果差

效果差

耗时(转换12页PDF论文)

630.83 s

1262.62 s

0.19 s

4.35 s

         

2 输出内容

2.1 Marker

注意事项:支持PDF、EPUB 和 MOBI 格式文件文档输入

处理单个文本脚本指令:marker_single data/original/2020_paper.pdf --output_dir data/output

输出内容:jpeg格式的图片和转换后的Markdown格式文件

2.2 MinerU

2.2.1 magic-pdf

注意事项:仅支持PDF格式文档输入

处理单个文本脚本指令:magic-pdf -p data/2020_paper.pdf -o data/output/ -m auto

输出内容:jpeg格式的图片、转换后的Markdown格式文件、json文件、其他标记文件

2.2.2 magic-doc

注意事项:需要安装Libre​Office,支持PPT、PPTX、DOC、DOCX、PDF格式输入

处理单个文本脚本指令:

from magic_doc.docconv import DocConverter, S3Config

converter = DocConverter(s3_config=None)

markdown_content, time_cost = converter.convert("../data/2018_word.docx", conv_timeout=300)

with open("docs/tmp/output.md", 'w', encoding='utf-8') as file:

file.write(markdown_content)

file.close()

输入文件:18页DOCX格式文件,16页PPTX格式文件

输出内容:输出Markdown文件内容,只保留了文字

2.3 Markitdown

注意事项:支持PDF,PowerPoint,Word,Excel,Images (EXIF metadata and OCR),Audio (EXIF metadata and speech transcription),HTML,Text-based formats (CSV, JSON, XML),ZIP files (iterates over contents)格式的输入

处理单个文本脚本指令:markitdown data/2020_paper.pdf > data/output/output.md

输出内容:输出Markdown文件内容,只保留了文字

3 实验分析

3.1 运行环境

OS:Windows 10

CPU:Intel(R)Core(TM)i7-10510U CPU @ 1.80GHz 2.30 GHZ

RAM:20.0 GB (19.7 GB 可用)

3.2 Marker

输入文件:12页PDF英文论文

共耗时630.83038854599 s

3.3 MinerU

3.3.1 magic-pdf

输入文件:12页PDF英文论文

共耗时1262.62 s

3.3.2 magic-doc

输入文件:12页PDF英文论文

共耗时0.186 s,只保留了文字,图片只提取了图题、横纵坐标,公式会乱码

3.4 Markitdown

3.4.1 PDF

输入文件:12页PDF英文论文

共耗时4.356520414352417 s,只保留了文字,图片只提取了图题、横纵坐标,公式会乱码

3.4.2 Word

输入文件:17页6624字包含中英文的DOCX格式文档

共耗时0.3815743923187256 s,只保留了文字,图片输出为:![](data:image/png;base64...),公式没有乱码,可以转换表格

3.4.3 PPT

输入文件:16页PPTX格式的演示文档

共耗时0.1609792709350586 s,只保留了文字,图片输出为:![Picture 3](Picture3.jpg)、![图片 18](图片18.jpg),公式没有乱码,可以转换表格

3.4.4 Excel

输入文件:148行 * 14列xlsx格式的Excel表格

共耗时1.6716892719268799 s

4 参考资料

Marker:https://github.com/VikParuchuri/marker

MinerU magic-pdf:https://github.com/opendatalab/MinerU/tree/master

magic-doc:https://github.com/opendatalab/magic-doc

markitdown: https://github.com/microsoft/markitdown

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/857413.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【附源码】JAVA在线拍卖系统+SpringBoot+VUE+前后端分离

学弟,学妹好,我是爱学习的学姐,今天带来一款优秀的项目:在线拍卖系统 。 本文介绍了系统功能与部署安装步骤,如果您有任何问题,也请联系学姐,偶现在是经验丰富的程序员! 一. 系统演示 管理后台-截图拍卖前端-截图视频演示 https://githubs.xyz/show/307.mp4 二. 系统概…

PostgreSQL 的历史

title: PostgreSQL 的历史 date: 2024/12/23 updated: 2024/12/23 author: cmdragon excerpt: PostgreSQL 是一款功能强大且广泛使用的开源关系型数据库管理系统。其历史可以追溯到1986年,当时由加州大学伯克利分校的一个研究团队开发。文章将深入探讨 PostgreSQL 的起源、发…

【社工钓鱼】手法总结

1479394864616213 七芒星实验室 2024年12月23日 07:03 四川 一、rlo文件名翻转 简介:全名Right-to-Left Override,本质是一串Unicode字符,编码0x202E,本身不可见,插入之后会让在他之后的字符串从右往左重新排列,本意是用来支持一些从右往左写的语言的文字,比如阿拉伯语、…

docker环境利用centos7镜像 + miniconda + python3.9 + wkhtmltopdf 构建html转图片服务

1、目录结构 html2image ——Dockerfile ——main.py ——requirements.txt 2、Dockerfile FROM centos:7WORKDIR /app COPY . /app/RUN curl -O https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.centos7.x86_64.rpm \&& cur…

Java 项目实战:基于 Spring Boot 与 Vue.js 技术构建护士排班管理系统的架构设计方案

一、引言 1.1 项目背景 随着医疗行业的不断发展,医院护士排班管理的复杂性日益增加。传统的手工排班方式难以满足高效、公平、合理的需求,容易出现人力分配不均、员工满意度低等问题。为了提高护士排班的科学性和管理效率,特开发此护士排班管理系统。 1.2 项目目标 本系统旨…

某狐畅游24校招-C++开发岗笔试

某狐畅游24校招-C++开发岗笔试 目录某狐畅游24校招-C++开发岗笔试一、单选题二、单选题解析本文题目源来自:[PTA程序设计类实验辅助教学平台](PTA | 程序设计类实验辅助教学平台)一、单选题 1-1 若有说明 int a[2][3]; 则对 a 数组元素的正确引用是 A. a[0][1+1]B. a[1][3]C.…

中电金信参编的《金融分布式系统 术语》等5项团体标准正式发布

近日,由北京金融科技产业联盟归口的《金融分布式系统 术语》《金融分布式系统 参考架构》《金融分布式系统 应用设计原则》《金融分布式系统 技术平台能力要求》和《金融分布式系统 运维能力要求》5项团体标准正式发布和实施。该5项标准由中国金融电子化集团有限公司和国内相关…

Linux U盘挂载和卸载

将u盘挂载到linux 在RHEL6.3中挂载U盘的步骤如下:插入U盘:将U盘插入计算机的USB接口。查看U盘设备:使用命令 fdisk -l 或 lsblk 查看系统中已连接的设备列表,找到U盘对应的设备名,通常以 /dev/sdX 的形式表示,其中 X 是字母,如 /dev/sdb 或 /dev/sdc。此处U盘为sdb1创建…

我的世界服务器搭建教程(兼容Paper和Spigot核心,插件安装等)

注意:该服务器是基于Paper1.20.1核心进行初始化,默认兼容spigot插件。 一、配置JDK环境 二、 服务器核心配置 三、服务器启动 四、加入游戏 现在搭建出来的是原版生存服务器,接下来需要进行安装各种插件,包含登录认证;经济;商店;圈地;传送;多地图等可玩性插件。具体内容请看…

我的世界服务器搭建教程 兼容Paper核心 兼容Spigot核心

注意:该服务器是基于Paper1.20.1核心进行初始化,默认兼容spigot插件。 一、配置JDK环境 二、 服务器核心配置 三、服务器启动 四、加入游戏 现在搭建出来的是原版生存服务器,接下来需要进行安装各种插件,包含登录认证;经济;商店;圈地;传送;多地图等可玩性插件。具体内容请看…

.net framework 4.7.2 winform框架项目升级到.net 8.0项目 界面比列失调问题解决

一、问题发生前:在.net framework 4.7.2 winform框架开发的项目 之前在.net framework 4.7.2 开发的winform项目,在visual studio一打开的时候,虽然界面内有些控件也会失调,但是他会提示“使用100%缩放比例重新启动Visual Studio ”点击“使用100%缩放比例重新启动Visual S…

用DBeaver 新建触发器的步骤

1、选中表,新建触发器 2、 在触发器中,插入声明的SQL 完成