使用Python提取PDF文件中指定页面的内容

在日常工作和学习中,我们经常需要从PDF文件中提取特定页面的内容。在本篇文章中,我们将介绍如何使用Python编程语言和两个强大的库——pymupdfwxPython,来实现这个任务。

1. 准备工作

首先,确保你已经安装了以下两个Python库:

  • pymupdf:用于处理PDF文件的库,提供了读取、提取和创建PDF文件的功能。
  • wxPython:一个基于wxWidgets的Python包,用于创建跨平台的图形用户界面(GUI)应用程序。

你可以使用以下命令通过pip安装这两个库:

pip install pymupdf wxPython

2. 创建GUI应用程序

首先,我们将创建一个简单的GUI应用程序,它将允许用户选择要打开的PDF文件,并输入开始页码和结束页码。然后,点击"Extract"按钮将提取指定范围内的页面并将其保存为新的PDF文件。
D:\spiderdocs\splitPDFfromx2y.py

import fitz
import wxclass PDFExtractor(wx.Frame):def __init__(self, parent, title):super(PDFExtractor, self).__init__(parent, title=title, size=(400, 200))self.panel = wx.Panel(self)self.file_picker = wx.FilePickerCtrl(self.panel, style=wx.FLP_DEFAULT_STYLE | wx.FLP_USE_TEXTCTRL)self.start_page_input = wx.TextCtrl(self.panel)self.end_page_input = wx.TextCtrl(self.panel)self.extract_button = wx.Button(self.panel, label="Extract", size=(100, 30))self.extract_button.Bind(wx.EVT_BUTTON, self.extract_pages)self.sizer = wx.BoxSizer(wx.VERTICAL)self.sizer.Add(self.file_picker, 0, wx.EXPAND|wx.ALL, 10)self.sizer.Add(wx.StaticText(self.panel, label="Start Page:"), 0, wx.LEFT|wx.TOP, 10)self.sizer.Add(self.start_page_input, 0, wx.EXPAND|wx.ALL, 10)self.sizer.Add(wx.StaticText(self.panel, label="End Page:"), 0, wx.LEFT|wx.TOP, 10)self.sizer.Add(self.end_page_input, 0, wx.EXPAND|wx.ALL, 10)self.sizer.Add(self.extract_button, 0, wx.ALIGN_CENTER|wx.ALL, 10)self.panel.SetSizerAndFit(self.sizer)self.Show()def extract_pages(self, event):file_path = self.file_picker.GetPath()start_page = int(self.start_page_input.GetValue())end_page = int(self.end_page_input.GetValue())doc = fitz.open(file_path)output_doc = fitz.open()for page_num in range(start_page-1, end_page):output_doc.insert_pdf(doc, from_page=page_num, to_page=page_num)output_path = file_path.replace(".pdf", "_extracted.pdf")output_doc.save(output_path)output_doc.close()doc.close()wx.MessageBox("Extraction complete!", "Success", wx.OK | wx.ICON_INFORMATION)app = wx.App()
PDFExtractor(None, title="PDF Extractor")
app.MainLoop()

3. 运行程序

将以上代码保存为一个Python脚本文件(例如pdf_extractor.py),然后运行脚本。你将看到一个简单的窗口,其中包含一个文件选择器、开始页码和结束页码的输入框,还有一个"Extract"按钮。

  • 点击文件选择器,选择要打开的PDF文件。
  • 在开始页码输入框
  • 在这里插入图片描述

4. 总结

在本篇文章中,我们学习了如何使用Python编程语言和pymupdfwxPython库来提取PDF文件中指定范围的页面内容。我们创建了一个简单的GUI应用程序,让用户能够选择要打开的PDF文件,并输入开始页码和结束页码。点击"Extract"按钮后,程序将提取指定范围内的页面,并将其保存为新的PDF文件。

这个示例展示了Python在处理PDF文件和创建GUI应用程序方面的强大能力。你可以根据需要对代码进行扩展和定制,以满足更具体的要求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/265123.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

保姆级 | XSS Platform环境搭建

0x00 前言 XSS Platform 平台主要是用作验证跨站脚本攻击。该平台可以部署在本地或服务器环境中。我们可以使用 XSS Platfrom 平台搭建、学习或验证各种类型的 XSS 漏洞。 0x01 环境说明 HECS(云耀云服务器)xss platformUbuntu 22.04Nginx 1.24.0MySQL 5.6.51Pure-Ftpd 1.0.49…

LeetCode力扣每日一题(Java):35、搜索插入位置

一、题目 二、解题思路 1、我的思路(又称:论API的重要性) 读完题目之后,我心想这题目怎么看着这么眼熟?好像我之前学过的一个API呀! 于是我回去翻了翻我之前写的博客:小白备战蓝桥杯&#xf…

Draw.io or diagrams.net 使用方法

0 Preface/Foreword 在工作中,经常需要用到框图,流程图,时序图,等等,draw.io可以完成以上工作。 official website:draw.io 1 Usage 1.1 VS code插件 draw.io可以扩展到VS code工具中。

Python自动化:selenium常用方法总结

使用的Python版本为3.8,selenium版本为4.15.2 Python自动化:selenium常用方法总结 1. 三种等待方式2. 浏览器操作3. 8种查找元素的方法4. 高级事件 1. 三种等待方式 强制等待 使用模块time下的sleep()实现等待效果隐式等待 使用driver.implicitly_wait()方法&#…

ChibiOS简介2/5

ChibiOS简介2/5 1. 源由2. ChibiOS基础知识2/52.4 Chapter 4 - ChibiOS General Architecture2.4.1 The Big Picture(总体框图)2.4.2 Embedded Components(嵌入式组件)2.4.3 Application Model(应用模型)2.…

Vue之数据绑定

在我们Vue当中有两种数据绑定的方法 1.单向绑定 2.双向绑定 让我为大家介绍一下吧&#xff01; 1、单向绑定(v-bind) 数据只能从data流向页面 举个例子&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"…

【Kubernetes】持久化存储emptyDir/hostPath/nfs/PVC

k8s持久化存储 一、为什么做持久化存储&#xff1f;二、k8s持久化存储&#xff1a;emptyDir三、k8s持久化存储&#xff1a;hostPath四、k8s持久化存储&#xff1a;nfs4.1、搭建nfs服务4.2、挂载nfs共享目录 五、k8s持久化存储&#xff1a; PVC5.1、什么是PV5.2、什么是PVC5.3、…

使用shell脚本将一台虚拟机上面数据分发到其他虚拟机上面

目录 1&#xff0c;功能2&#xff0c;注意点3&#xff0c;shell脚本介绍4&#xff0c;bash内容 1&#xff0c;功能 使用shell脚本将一台虚拟机上面数据分发到其他虚拟机上面。 2&#xff0c;注意点 需要修改的地方&#xff1a;hadoop250 hadoop251 hadoop252 hadoop253 hado…

普冉(PUYA)单片机开发笔记(4): 配置通用定时器

概述 在前几篇开发笔记中&#xff0c;从 PY32F003 的一个厂家标准例程开始&#xff0c;实现了中断式无阻塞串口收发、对开发板 LED3 的亮/灭控制&#xff0c;时钟系统的初始化和时钟选择。在此基础上&#xff0c;今天做一下定时器的应用实验。事先考虑以下几个问题&#xff1a…

使用Git进行版本控制

参考&#xff1a;《Python编程从入门到实践》 前言1、安装、配置 Git1.1 在Linux系统中安装Git1.2 在OS X系统中安装Git1.3 在Windows系统中安装Git1.4 配置Git 2、创建项目3、忽略文件4、初始化仓库5、检查状态6、将文件加入到仓库中7、执行提交8、查看提交历史 前言 版本控制…

回顾【数学基础】找出断层,继续前进, 使用chatGPT学习并解决实际问题:微积分

已经学过的算术、代数、几何。跳过。 从微积分开始 想象一下&#xff0c;你在画一条曲线&#xff0c;或者在一个大草地上奔跑。微积分就是一种数学工具&#xff0c;帮助我们了解这条曲线的形状&#xff0c;或者你奔跑的方式。 微分&#xff08;就像研究曲线上的每一小点&…

基于SSM超市订单管理系统(Java毕业设计)

大家好&#xff0c;我是DeBug&#xff0c;很高兴你能来阅读&#xff01;作为一名热爱编程的程序员&#xff0c;我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里&#xff0c;我将会结合实际项目经验&#xff0c;分享编程技巧、最佳实践以及解决问题的方法。无论你是…