Python实现PDF—>Excel的自动批量转换(附完整代码)

Python实现PDF—>Excel的自动批量转换(附完整代码)

话不多说,先看效果!

需要转换的PDF:
在这里插入图片描述

转换后的Excel:
在这里插入图片描述

01、底层原理

PDF 到 Excel 的转换涉及不同文件格式之间的数据提取和重构。底层原理可以简单概括为以下几个步骤:

  1. PDF 文本提取: 首先,使用 Python 中的库(例如 PyPDF2、pdfplumber 或 PyMuPDF)来提取 PDF 文档中的文本内容。PDF 中的文本可以是可选的,有时可能是图像或矢量图形。

  2. 文本处理和解析: 提取的文本可能包含大量无关紧要的信息。在这一步,需要对文本进行处理和解析,以获取有用的信息。这可能涉及到正则表达式、文本分析或其他处理技术,具体取决于 PDF 的结构和内容。

  3. 数据结构化: 将提取的文本数据结构化为表格或类似的数据结构。这通常涉及到将文本转换为适当的数据类型(例如字符串、数字等)并组织成表格形式。

  4. Excel 创建和写入: 使用 Python 中的 pandas 或 openpyxl 等库,将结构化的数据写入 Excel 文件。这涉及到创建 Excel 工作簿、工作表,并将提取的数据逐行或逐列写入。

  5. 格式调整: 对生成的 Excel 文件进行格式调整,以确保数据的呈现方式符合期望。这可能包括设置列宽、行高,应用样式,或者执行其他格式化操作。

  6. 保存文件: 最后,保存生成的 Excel 文件。这可以通过库中提供的保存功能完成,确保生成的文件保存在指定的路径。

需要注意的是!!!

PDF 到 Excel 的转换过程可能会受到 PDF 文档的复杂性和结构的影响。一些 PDF 文件可能包含图像或表格,这可能需要额外的处理步骤,例如图像识别表格提取技术。因此,实际的转换过程可能需要根据具体的 PDF 文件结构进行调整。

02、代码实现

import os
import pdf2docx
import docx
from openpyxl import Workbook
from tkinter import Tk, filedialogdef convert_pdf_to_excel(pdf_path, excel_path):# 将PDF文件转换为Word文件docx_path = 'temp.docx'pdf2docx.parse(pdf_path, docx_path)# 打开Word文件doc = docx.Document(docx_path)# 创建Excel文件wb = Workbook()ws = wb.active# 遍历Word文档中的所有表格for table in doc.tables:# 复制表格到Excel中for row in table.rows:ws.append([cell.text for cell in row.cells])# 保存Excel文件wb.save(excel_path)def convert_folder_to_excel(folder_path):# 获取文件夹中的所有文件files = os.listdir(folder_path)# 遍历文件夹中的所有文件for file in files:# 判断文件是否为PDF文件if file.lower().endswith('.pdf'):# 构造PDF文件的路径pdf_path = os.path.join(folder_path, file)# 构造Excel文件的路径excel_path = os.path.splitext(pdf_path)[0] + '.xlsx'# 调用函数将PDF文件转换为Excel文件convert_pdf_to_excel(pdf_path, excel_path)# 创建Tkinter根窗口
root = Tk()
root.withdraw()# 使用文件夹选择对话框选择文件夹
folder_path = filedialog.askdirectory()# 调用函数将选择的文件夹中的所有PDF文件转换为Excel格式
convert_folder_to_excel(folder_path)
运行效果如下:

在这里插入图片描述

​ 运行上述代码后,弹出运行框,访问本地路径,选择指定文件夹(包含你要转换的PDF文件),并修改代码中的保存路径,即可将选择文件夹下的PDF文件全部转换为Excel文件,效果如本文开头所示!本次文件夹选择框使用tkinter库实现。

tkinter 是 Python 中用于创建图形用户界面 (GUI) 的标准库之一。它提供了一组用于创建窗口、按钮、文本框等 GUI 元素的工具,使开发者能够轻松构建用户友好的应用程序。以下是对 tkinter 的介绍以及与其他同类型库比较的优劣性:

03、tkinter 的特点:

  1. 内置库: tkinter 是 Python 的标准库之一,无需额外安装。它在大多数 Python 安装中都是默认包含的,因此开发者可以方便地使用而不用担心兼容性或依赖性问题。
  2. 跨平台性: tkinter 提供了对不同操作系统的支持,包括 Windows、Linux 和 macOS。这意味着开发者可以使用相同的代码在不同平台上运行他们的 GUI 应用程序。
  3. 简单易用: tkinter 的设计目标之一是简单易用。它的 API 相对来说较为直观,适合初学者入门。同时,对于一些简单的 GUI 应用,tkinter 提供了足够的功能。

与其他库的比较:

  1. PyQt/PySide:
    • 优势: PyQt 和 PySide 是另外两个流行的 GUI 库,它们提供了更丰富和灵活的功能。它们支持现代的 UI 设计,具有更好的外观和交互效果。
    • 劣势: 相对于 tkinterPyQt 和 PySide 的学习曲线可能更陡峭。此外,它们需要额外的安装步骤,不像 tkinter 那样内置于 Python。
  2. Kivy:
    • 优势: Kivy 是一个专注于移动应用和多点触控的 GUI 库。它支持多种平台,包括 Windows、Linux、macOS 和 Android。
    • 劣势: 相比于 tkinter,Kivy 的文档和社区支持相对较少。它的主要重点是移动应用,可能不适合所有类型的 GUI 应用。
  3. wxPython:
    • 优势: wxPython 提供了一个类似于 tkinter 的简单 API,但也支持更复杂的 GUI 需求。它的外观和感觉可以通过主题进行定制。
    • 劣势:tkinter 相比,wxPython 的文档可能相对较少。而且,与 tkinter 一样,它也需要额外的安装步骤。
总结:
  • tkinter 适用于简单的 GUI 应用,对于入门级开发者和小型项目而言是一个良好的选择。
  • PyQt、PySide、Kivy 和 wxPython 适用于需要更丰富功能、更现代外观或跨平台移动应用的项目,但可能需要更多学习和配置。
    选择 GUI 库的最佳方法取决于项目的需求、开发者的经验水平以及对不同库的个人偏好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/337643.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手撕单链表(单向,不循环,不带头结点)的基本操作

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - :来于“云”的“羽球人”。…

【详解:两数之和三数之和四数之和】

本文讲解两数之和,三数之和和四数之和这三道经典双指针类型题。会在详解题目的同时给出AC代码【这三个题目从前往后是循序渐进的,非常巧妙】 目录 1、查找总价格为目标值的两个商品 2、三数之和 3、力扣18. 四数之和 1、查找总价格为目标值的两个商品…

SCS模型(径流曲线法)概述

目录 1.介绍:2.计算公式:参考文献:小结: 1.介绍: SCS模型(径流曲线法)是由美国农业部水土保持局(Soil Conservation Service) 基于经验提出,最初用于预测在农业用地小型流域降雨所累…

Django 框架添加管理员,完成对普通用户信息管理

前情回顾:Django框架 完成用户登录注册 文章目录 1.创建管理员2.完善管理员功能2.1增加管理员登录功能2.2完善展示用户信息功能2.3完善修改用户信息功能2.4完善删除用户信息功能 1.创建管理员 一般管理员都是直接指定,不开放页面注册,可以直…

【数据库系统概论】期末复习1

试述数据、数据库、数据库系统、数据库管理系统的概念。试述文件系统与数据库系统的区别和联系。试述数据库系统的特点。数据库管理系统的主要功能有哪些?试述数据库系统三级模式结构,这种结构的优点是什么?什么叫数据与程序的物理独立性&…

2024-01-03 无重叠区间

435. 无重叠区间 思路:和最少数量引爆气球的箭的思路基本都是一致了!贪心就是比较左边的值是否大于下一个右边的值 class Solution:def eraseOverlapIntervals(self, points: List[List[int]]) -> int:points.sort(keylambda x: (x[0], x[1]))# 比较…

基于JAVA+SpringBoot的高校学术报告系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 智慧高校学术报告系统…

系统添加深色模式实现方案

业务需求,夜间看系统太刺眼,要求添加夜间模式 效果如下: 依赖如下: 参考了官方解决方案,尝试后没有有效的解决. 官方解决方案 后续打算换框架,发现antdesign pro vue版本的暗黑模式禁用了. ant design pro 预览地址 思路: 引入andesign 暗黑模式的样式 , 手动修改自定义类…

VLAN原理与配置

0x00 前言 本节主要记录VLAN相关的内容。 传统以太网的缺点 广播域越大,产生的网络安全问题,垃圾流量问题越严重。 什么是VLAN? Virtual Local Area NetWork 虚拟局域网技术。 VLAN的特点是什么 一个VLAN就是一个广播域,在…

AWS CodeCommit创建git库

问题 在AWS云国际站上面使用CodeCommit服务创建git代码库。这里假设本地已经安装好git,ssh等工具,并且本地已经创建好相关公私钥文件,熟悉git和ssh通用配置文件,这里不会介绍windows和pc上面的ssh和git配置文件差异,需…

RocketMQ 消费重试

消费者出现异常,消费某条消息失败时, Apache RocketMQ 会根据消费重试策略重新投递该消息进行故障恢复。本文介绍消费重试机制的原理、版本兼容性和使用建议。 一、应用场景​ Apache RocketMQ 的消费重试主要解决的是业务处理逻辑失败导致的消费完整性…

内裤洗衣机有用吗?五款小型洗衣机全自动推荐

随着内衣洗衣机的流行,很多小伙伴在纠结该不该入手一款内衣洗衣机,专门来洗一些贴身衣物,答案是非常有必要的,因为我们现在市面上的大型洗衣机只能做清洁,无法对我们的贴身衣物进行一个高强度的清洁,而小小…