1 文件格式
插件 |
Marker |
MinerU |
Markitdown |
|
magic-pdf |
magic-doc |
|||
支持的文件格式 |
PDF、EPUB 和 MOBI |
|
PPT、PPTX、DOC、DOCX、PDF |
PDF, PowerPoint, Word, Excel Images (EXIF metadata and OCR), Audio (EXIF metadata and speech transcription), HTML, CSV, JSON, XML, ZIP files (iterates over contents) |
图片 |
转化成jpeg |
转化成jpeg |
提取文字 |
提取文字,但Word和PPT里面的图片无法识别 |
表格 |
可准确识别 |
可准确识别 |
识别效果一般 |
识别效果一般 |
公式 |
可准确识别 |
可准确识别 |
效果差 |
效果差 |
耗时(转换12页PDF论文) |
630.83 s |
1262.62 s |
0.19 s |
4.35 s |
2 输出内容
2.1 Marker
注意事项:支持PDF、EPUB 和 MOBI 格式文件文档输入
处理单个文本脚本指令:marker_single data/original/2020_paper.pdf --output_dir data/output
输出内容:jpeg格式的图片和转换后的Markdown格式文件
2.2 MinerU
2.2.1 magic-pdf
注意事项:仅支持PDF格式文档输入
处理单个文本脚本指令:magic-pdf -p data/2020_paper.pdf -o data/output/ -m auto
输出内容:jpeg格式的图片、转换后的Markdown格式文件、json文件、其他标记文件
2.2.2 magic-doc
注意事项:需要安装LibreOffice,支持PPT、PPTX、DOC、DOCX、PDF格式输入
处理单个文本脚本指令:
from magic_doc.docconv import DocConverter, S3Config
converter = DocConverter(s3_config=None)
markdown_content, time_cost = converter.convert("../data/2018_word.docx", conv_timeout=300)
with open("docs/tmp/output.md", 'w', encoding='utf-8') as file:
file.write(markdown_content)
file.close()
输入文件:18页DOCX格式文件,16页PPTX格式文件
输出内容:输出Markdown文件内容,只保留了文字
2.3 Markitdown
注意事项:支持PDF,PowerPoint,Word,Excel,Images (EXIF metadata and OCR),Audio (EXIF metadata and speech transcription),HTML,Text-based formats (CSV, JSON, XML),ZIP files (iterates over contents)格式的输入
处理单个文本脚本指令:markitdown data/2020_paper.pdf > data/output/output.md
输出内容:输出Markdown文件内容,只保留了文字
3 实验分析
3.1 运行环境
OS:Windows 10
CPU:Intel(R)Core(TM)i7-10510U CPU @ 1.80GHz 2.30 GHZ
RAM:20.0 GB (19.7 GB 可用)
3.2 Marker
输入文件:12页PDF英文论文
共耗时630.83038854599 s
3.3 MinerU
3.3.1 magic-pdf
输入文件:12页PDF英文论文
共耗时1262.62 s
3.3.2 magic-doc
输入文件:12页PDF英文论文
共耗时0.186 s,只保留了文字,图片只提取了图题、横纵坐标,公式会乱码
3.4 Markitdown
3.4.1 PDF
输入文件:12页PDF英文论文
共耗时4.356520414352417 s,只保留了文字,图片只提取了图题、横纵坐标,公式会乱码
3.4.2 Word
输入文件:17页6624字包含中英文的DOCX格式文档
共耗时0.3815743923187256 s,只保留了文字,图片输出为:![](data:image/png;base64...),公式没有乱码,可以转换表格
3.4.3 PPT
输入文件:16页PPTX格式的演示文档
共耗时0.1609792709350586 s,只保留了文字,图片输出为:![Picture 3](Picture3.jpg)、![图片 18](图片18.jpg),公式没有乱码,可以转换表格
3.4.4 Excel
输入文件:148行 * 14列xlsx格式的Excel表格
共耗时1.6716892719268799 s
4 参考资料
Marker:https://github.com/VikParuchuri/marker
MinerU magic-pdf:https://github.com/opendatalab/MinerU/tree/master
magic-doc:https://github.com/opendatalab/magic-doc
markitdown: https://github.com/microsoft/markitdown