Python3 处理PDF之PyMuPDF 入门

PyMuPDF 简介

PyMuPDF是一个用于处理PDF文件的Python库,它提供了丰富的功能来操作、分析和转换PDF文档。这个库的设计目标是提供一个简单易用的API,使得开发者能够轻松地在Python程序中实现PDF文件的各种操作。

PyMuPDF的主要特点如下:

  • 跨平台兼容性:PyMuPDF支持多种操作系统,如Windows、macOS和Linux,可以在这些平台上运行Python程序。
  • 强大的PDF处理能力:PyMuPDF提供了丰富的功能来操作PDF文件,如读取、写入、分割、合并、旋转、裁剪等。此外,它还支持加密和解密PDF文档,以及提取文本、图像和元数据等信息。
  • 易于使用:PyMuPDF的API设计简洁明了,易于学习和使用。开发者可以通过简单的函数调用来实现各种PDF操作,而无需深入了解底层细节。

PyMuPDF 安装及其依赖第三方框架

pip 安装 PyMuPDF 模块

pip install pymupdf

验证pymupdf 模块是否安装成功

import fitz
import PIL# 打印pymupdf模块:基本信息
from fitz import TextPageprint(fitz.__doc__)

PyMuPDF 1.22.5: Python bindings for the MuPDF 1.22.2 library.
Version date: 2023-06-21 00:00:01.
Built for Python 3.10 on win32 (64-bit).

PyMuPDF 依赖第三方框架 

当使用Pixmap.pil_save()Pixmap.pil_tobytes() 需要 Pillow模块

当使用Document.subset_fonts()时需要  FontTools模块

PyMuPDF 核心类

在PyMuPDF 核心类演示涉及类

 其他未使用到的其他类:Archive(档案)、Colorspace(色彩空间对象)、DisplayList(显示列表对象)、DocumentWriter(文档编辑对象)、Identity(身份对象)、 IRect(长方形对象)、linkDest(连接目的对象)、Matrix(矩阵对象)、Outline(大纲)、Quad(四边形对象)、Shape(形状对象)、 Story(章节对象)、TextPage(文本页面对象)、TextWriter(文本写入对象)、Tools(工具类)、Xml(xml 文档对象)

PyMuPDF 核心类演示

加载PDF文件

# 加载pdf 文件
doc = fitz.open("E:\doc\opencv 4.1中文官方文档v1.1版.pdf")

获取Document 属性和方法

# 获取Document 文档对象的属性和方法
# 1、获取pdf 页数
pageCount = doc.page_count
print("pdf 页数", pageCount)# 2、获取pdf 元数据
metaData = doc.metadata
print("pdf 元数据:", metaData)# 3、获取pdf 目录信息
toc = doc.get_toc()
print("pdf 目录:", toc)

Page 属性和方法

通过Page 对象实现以下功能:

• 您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。

• 您可以提取多种格式的页面文本和图像,并搜索文本字符串。

Page 加载方法

page = doc.load_page(pno) # loads page number 'pno' of the document (0-based)
page = doc[pno] # the short form

Documnet 迭代器加载Page 方法

for page in doc:# do something with 'page'# ... or read backwards
for page in reversed(doc):# do something with 'page'# ... or even use 'slicing'
for page in doc.pages(start, stop, step):# do something with 'page'
# 获取Page 页面对象的属性和方法
page = doc.load_page(1)  # 默认加载第一页
print("page 对象:", page)

检查页面的链接、批注或表单字段

# 1、获取Page 页面的链接、批注或表单字段
links = page.get_links()
for link in links:# 涉及Link 对象print("链接:", link)annots = page.annots()
for annot in annots:# 涉及Annot 对象print("批注:", annot)widgets = page.widgets()
for widget in widgets:# 涉及表单字段print("表单字段:", widget)

页面展示/页面图像保存到文件中

# 2、Page 页面-光栅图像
pix = page.get_pixmap()
print("打印页面图像对象:", pix)
# 保存光栅图像图像,需要依赖第三方框架:Pillow
pix.pil_save("page-%i.png" % page.number)

Page.get_pixmap()提供了许多用于控制图像的变体:分辨率、颜色空间(例如,生成灰度图像或具有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。

Pixmap包含以下引用的许多方法和属性。其中包括整数宽度高度(每个像素)和跨距(一个水平图像行的字节数)。属性示例表示表示图像数据的矩形字节区域(Python字节对象)。

温馨提示:page.get_svg_image()创建页面的矢量图像。 

提取文本和图像

# 3、Page 获取文本\图像\其他信息
# 温馨提示:涉及TextPage 常量类型定义
text = page.get_text("text")
print("指定页面文本内容:", text)

opt使用以下字符串之一以获取不同的格式:

  • "text":(默认)带换行符的纯文本。无格式、无文字位置详细信息、无图像- "blocks":生成文本块(段落)的列表- "words":生成单词列表(不包含空格的字符串)- "html":创建页面的完整视觉版本,包括任何图像。这可以通过internet浏览器显示- "dict"/"json":与HTML相同的信息级别,但作为Python字典或resp.JSON字符串。- "rawdict"/"rawjson""dict"/"json"的超级集合。它还提供诸如XML之类的字符详细信息。- "xhtml":文本信息级别与文本版本相同,但包含图像。- "xml":不包含图像,但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释。

搜索文本

# 4、Page 文本检索
search = page.search_for("图像的基本操作")
print("打印检索文本的位置:", search)

提供一个矩形列表,每个矩形都包含一个字符串“mupdf”(不区分大小写)。

PDF操作 

PDF是唯一可以使用PyMuPDF修改的文档类型。其他文件类型是只读的。但是,您可以将任何文档(包括图像)转换为PDF,然后将所有PyMuPDF功能应用于转换果,Document.convert_to_pdf()

Document.save()始终将PDF以其当前(可能已修改)状态存储在磁盘上。

通常,您可以选择是保存到新文件,还是仅将修改附加到现有文件(“增量保存”),这通常要快得多。

# Document 操作PDF页面
# 1、PDF 页面删除
# doc.delete_page(1)
# 1、PDF 页面拷贝和移动
doc.copy_page(1)  # 第一页移动最后一页,温馨提示:移动的页面还在元PDF 文件中。
# 1、 PDF 插入页面,  返回插入页面对象
new_page = doc.new_page(pno=-1, width=595, height=842)
# 插入页面, 设置文本
text = "你的文本"
point = fitz.Point(50, 50)  # 这是一个下x,y 二维坐标系,在这个区域内插入你的文本
new_page.insert_text(point, text, fontsize=20)
# 2、Document 保存
doc.save("opencv pdf文件调整.pdf")
# 3、Documemt 销毁
doc.close()

PDF 删除方法

Document.delete_page()
Document.delete_pages()

PDF移动拷贝方法

Document.copy_page()
Document.fullcopy_page()
Document.move_page()

PDF插入Page 方法

Document.insert_page()
Document.new_page()

PyMuPDF 核心功能模块封装

PDF 分割

每一页单独保存为一个pdf

def split_per_page(input, output):if not os.path.exists(output):os.makedirs(output)doc = fitz.open(input)for page in range(doc.page_count):dst_doc = fitz.open()dst_doc.insert_pdf(doc,from_page=page,to_page=page)dst_doc.save(os.path.join(output,f'{page}.pdf'))dst_doc.close()doc.close()# 把每一个页面保存为一个pdf,并保存在test文件夹中
split_per_page("test.pdf","test")

范围内的页面保存为pdf 

def split_range_page(input, output, range):if not os.path.exists(output):os.makedirs(output)doc = fitz.open(input)start = range[0] - 1end = range[1] - 1dst_doc = fitz.open()dst_doc.insert_pdf(doc, from_page=start, to_page=end)dst_doc.save(os.path.join(output,'range_page.pdf'))dst_doc.close()doc.close()# 把1-10也保存为pdf,保存在test文件夹中
split_range_page('test.pdf','test', [1,10])

 任意的页面保存为pdf

def split_selected_page(input, output, pages):if not os.path.exists(output):os.makedirs(output)doc = fitz.open(input)result = map(lambda x: x - 1, pages)doc.select(list(result))doc.save(os.path.join(output,'selected_pages.pdf'))doc.close()# 把第一、三、八页面保存为pdf,并保存在test文件夹中
split_selected_page('test.pdf','test',[1,3, 8])

PDF 合并

import fitzdoc_a = fitz.open("a.pdf") # open the 1st document
doc_b = fitz.open("b.pdf") # open the 2nd documentdoc_a.insert_pdf(doc_b) # merge the docs
doc_a.save("a+b.pdf") # save the merged document with a new filename# 把b.pdf合并到a.pdf,保存为a+b.pdf

PDF 中的图片提取

import fitzdoc = fitz.open("test.pdf") # open a documentfor page_index in range(len(doc)): # iterate over pdf pagespage = doc[page_index] # get the pageimage_list = page.get_images()# print the number of images found on the pageif image_list:print(f"Found {len(image_list)} images on page {page_index}")else:print("No images found on page", page_index)for image_index, img in enumerate(image_list, start=1): # enumerate the image listxref = img[0] # get the XREF of the imagepix = fitz.Pixmap(doc, xref) # create a Pixmapif pix.n - pix.alpha > 3: # CMYK: convert to RGB firstpix = fitz.Pixmap(fitz.csRGB, pix)pix.save("page_%s-image_%s.png" % (page_index, image_index)) # save the image as pngpix = None

PDF 保存为图片

def covert2pic(zoom):doc = fitz.open("test.pdf")total = doc.page_countfor pg in range(total):page = doc[pg]zoom = int(zoom)            #值越大,分辨率越高,文件越清晰rotate = int(0)trans = fitz.Matrix(zoom / 100.0, zoom / 100.0).prerotate(rotate)pm = page.get_pixmap(matrix=trans, alpha=False)lurl='.pdf/%s.jpg' % str(pg+1)pm.save(lurl)doc.close()covert2pic(200)

PDF 添加水印

def add_watermark(input, watermark):doc = fitz.open(input)for page in doc:page.insert_image(page.bound(),filename=watermark, overlay=False)doc.save(os.path.join("test","watermark.pdf"))doc.close()add_watermark("test.pdf","watermark.png")

PDF 加密

PDF加密有两种形式

  • 用户加密,需要输入密码才能打开pdf
  • 拥有者加密,可以防止打印、复制、添加注释、添加删除页面等功能
def encrypt_pdf():perm = int(fitz.PDF_PERM_ACCESSIBILITY # always use this| fitz.PDF_PERM_PRINT # permit printing| fitz.PDF_PERM_COPY # permit copying| fitz.PDF_PERM_ANNOTATE # permit annotations) # 可以打印,复制,添加注释owner_pass = "owner" # owner passworduser_pass = "user" # user passwordencrypt_meth = fitz.PDF_ENCRYPT_AES_256 # strongest algorithmdoc = fitz.open("test.pdf") # empty pdfdoc.save("encrypt.pdf",encryption=encrypt_meth,owner_pw=owner_pass,permissions=perm,user_pw=user_pass) # 同时使用# 这两个加密方式可以,单独使用,也可以同时使用# 单独使用用户加密
doc.save("encrypt.pdf",encryption=encrypt_meth,owner_pw=owner_pass)

PyMuPDF 在PyQT5 运用

功能要求:在PyQT-5 展示pdf 文件.

效果展示:

PyQT-5 UI效果展示和源文件

 

 pdfshow.ui

<?xml version="1.0" encoding="UTF-8"?>
<ui version="4.0"><class>Form</class><widget class="QWidget" name="Form"><property name="geometry"><rect><x>0</x><y>0</y><width>400</width><height>300</height></rect></property><property name="windowTitle"><string>Form</string></property><widget class="QLabel" name="label"><property name="geometry"><rect><x>130</x><y>70</y><width>54</width><height>12</height></rect></property><property name="text"><string>PDF展示</string></property></widget></widget><resources/><connections/>
</ui>

pdfshow.py 源码

# -*- coding: utf-8 -*-# Form implementation generated from reading ui file 'pdfshow.ui'
#
# Created by: PyQt5 UI code generator 5.15.9
#
# WARNING: Any manual changes made to this file will be lost when pyuic5 is
# run again.  Do not edit this file unless you know what you are doing.
import sysfrom PyQt5 import QtCore, QtWidgets
from PyQt5.QtGui import QImage, QPixmap, QTransform
from PyQt5.QtWidgets import QWidget, QApplication
# 添加PDF 文件操作依赖
import fitzclass Ui_Form(QWidget):def __init__(self):super().__init__()self.label = Noneself.setupUi()self.image()def setupUi(self):self.setObjectName("Form")self.resize(400, 300)self.label = QtWidgets.QLabel(self)self.label.setGeometry(QtCore.QRect(130, 70, 54, 12))self.label.setObjectName("label")self.retranslateUi()QtCore.QMetaObject.connectSlotsByName(self)def retranslateUi(self):_translate = QtCore.QCoreApplication.translateself.setWindowTitle(_translate("Form", "Form"))self.label.setText(_translate("Form", "PDF展示"))def image(self):file = "E:\doc\opencv 4.1中文官方文档v1.1版.pdf"# 打开文件doc = fitz.open(file)# 读取一页 0代表第1页page_one = doc.load_page(1)# 将第一页转换为Pixmappage_pixmap = page_one.get_pixmap()# 将Pixmap转换为QImageimage_format = QImage.Format_RGBA8888 if page_pixmap.alpha else QImage.Format_RGB888page_image = QImage(page_pixmap.samples, page_pixmap.width,page_pixmap.height, page_pixmap.stride, image_format)width = page_image.width()height = page_image.height()# QImage 转为QPixmappix = QPixmap.fromImage(page_image)trans = QTransform()trans.rotate(90)  # 这里设置旋转角度new = pix.transformed(trans)# 设置标签宽和高self.label.setFixedSize(400, 350)# 设置图片大小自适应标签self.label.setScaledContents(True)# 给标签设置图像self.label.setPixmap(new)if __name__ == '__main__':app = QApplication(sys.argv)w = Ui_Form()w.show()sys.exit(app.exec_())

解决思路

  1. 使用PyMuPDF模块打开文件。
  2. 读取第一页pdf文件第一页。
  3. 从第一页获取图像,是Pixmap类。
  4. 使用PyQt5的QImage将上面的Pixmap转换为QImage。
  5. 将QImage转换为QPixmap。
  6. 将QPixmap设置给Label。

 PyMuPDF 预览PDF  文件

UI 原型设计:

 Python 源码

ImageListWidget:自定义QListWidget 列表组件,仅仅展示图片模式

# _*_ coding : UTF-8_*_
# 开发者 : zhuozhiwengang
# 开发时间 : 2023/8/6 0:54
# 文件名称 : ImageListWidget
# 开发工具 : PyCharm
import osfrom PyQt5.QtCore import QSize
from PyQt5.QtGui import QIcon
from PyQt5.QtWidgets import QListWidget, QListWidgetItem, QListView, QWidget, QApplication, QHBoxLayout, QLabel, \QVBoxLayoutclass ImageListWidget(QListWidget):def __init__(self):super(ImageListWidget, self).__init__()self.setFlow(QListView.Flow(1))#0: left to right,1: top to bottomself.setIconSize(QSize(150, 100))# 设置控件的列表视图模式为IconModeself.setViewMode(QListWidget.IconMode)# 设置垂直布局self.setLayout(QVBoxLayout())def add_image_items(self, image_paths=[]):for i in range(len(image_paths)):# 创建缩略图图标icon = QIcon()icon.addPixmap(image_paths[i], QIcon.Normal, QIcon.Off)# 创建QListWidgetItem对象,并设置图标和它的描述文字item = QListWidgetItem(icon, str(i))# 把item添加到listWidget中self.addItem(item)

ImageViewerWidget:自定义PDF预览组件 

# _*_ coding : UTF-8_*_
# 开发者 : zhuozhiwengang
# 开发时间 : 2023/8/6 0:55
# 文件名称 : ImageViewerWidget
# 开发工具 : PyCharm
import fitz
from PyQt5.QtGui import QPixmap, QImage
from PyQt5.QtWidgets import QWidget, QLabel, QHBoxLayout, QApplication, QVBoxLayoutfrom ImageListWidget import ImageListWidgetclass ImageViewerWidget(QWidget):def __init__(self):super(QWidget, self).__init__()# 显示控件self.list_widget = ImageListWidget()self.list_widget.setMinimumWidth(200)self.show_label = QLabel(self)self.show_label.setFixedSize(600, 400)self.image_paths = []self.currentImgIdx = 0self.currentImg = None# 水平布局self.layout = QVBoxLayout(self)self.layout.addWidget(self.show_label)self.layout.addWidget(self.list_widget)# 信号与连接self.list_widget.itemSelectionChanged.connect(self.loadImage)def load_from_paths(self, img_paths=[]):self.image_paths = img_pathsself.list_widget.add_image_items(img_paths)def loadImage(self):self.currentImgIdx = self.list_widget.currentIndex().row()if self.currentImgIdx in range(len(self.image_paths)):self.currentImg = QPixmap(self.image_paths[self.currentImgIdx]).scaledToHeight(400)self.show_label.setPixmap(self.currentImg)if __name__ == "__main__":import sysapp = QApplication(sys.argv)# 图像路径file = "E:\doc\opencv 4.1中文官方文档v1.1版.pdf"# 打开文件doc = fitz.open(file)img_paths = []for i in range(0, doc.page_count):# 读取一页 0代表第1页page = doc.load_page(i)# 将第一页转换为Pixmappage_pixmap = page.get_pixmap()# 将Pixmap转换为QImageimage_format = QImage.Format_RGBA8888 if page_pixmap.alpha else QImage.Format_RGB888page_image = QImage(page_pixmap.samples, page_pixmap.width,page_pixmap.height, page_pixmap.stride, image_format)width = page_image.width()height = page_image.height()# QImage 转为QPixmappix = QPixmap.fromImage(page_image)img_paths.append(pix)# 显示控件main_widget = ImageViewerWidget()main_widget.load_from_paths(img_paths)main_widget.setWindowTitle("ImageViewer")main_widget.show()# 应用程序运行sys.exit(app.exec_())

Python 效果展示

 

PDF 预览组件基本实现,但是没有进行细化,此代码仅供参考。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/55185.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ACL访问控制列表

ACL介绍 acl: 访问控制列表 步骤&#xff1a; 创建一个访问控制规则调用这个规则 ACL的分类和标识 ACL的匹配顺序以及匹配结果 拓扑图 配置 # 首先通过三层交换的实验做一次 ....## 检测ip地址 display ip interface brief## 在交换机2上做配置 [S2]acl name test ?IN…

【Java可执行命令】(十六)诊断命令请求发送工具 jcmd:提供一种简单而强大的方式来管理和监控 Java 进程 ~

Java可执行命令之jcmd 1️⃣ 概念2️⃣ 优势和缺点3️⃣ 使用3.1 语法格式3.2 jcmd -l&#xff1a;列出正在运行的 Java 进程3.3 jcmd < pid> help&#xff1a;列出特定进程的诊断命令列表3.4 jcmd < pid> < command>&#xff1a;执行诊断命令 4️⃣ 应用场景…

【C++】开源:事件驱动网络库libevent配置使用

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 这篇文章主要介绍事件驱动库libevent配置使用。 无专精则不能成&#xff0c;无涉猎则不能通。——梁启超 欢迎来到我的博客&#xff0c;一起学习&#xff0c;共同进步。 喜欢的朋友可以关注一下&#xf…

Qt应用开发(基础篇)——时间类 QDateTime、QDate、QTime

一、前言 时间类QDateTime、QDate、QTime、QTimeZone保存了Qt的时间、日期、时区信息&#xff0c;常用的时间类部件都会用到这些数据结构&#xff0c;常用概念有年、月、日、时、分、秒、毫秒和时区&#xff0c;时间和时区就关系到时间戳和UTC的概念。 UTC时间&#xff0c;又称…

大模型使用——超算上部署LLAMA-2-70B-Chat

大模型使用——超算上部署LLAMA-2-70B-Chat 前言 1、本机为Inspiron 5005&#xff0c;为64位&#xff0c;所用操作系统为Windos 10。超算的操作系统为基于Centos的linux&#xff0c;GPU配置为A100&#xff0c;所使用开发环境为Anaconda。 2、本教程主要实现了在超算上部署LLAM…

零知识证明技术概述

简述 隐私泄露问题给企业带来了巨大的损失&#xff0c;本文简述零知识证明技术并且给出对应的应用示例&#xff1a; 什么是零知识证明&#xff1f; 零知识证明又被称为零知识协议&#xff0c;利用数学知识在双方不需要直接传递信息本身的前提下来验证信息的正确性。这个思想…

华为PMS API client token auth failed

对接华为pms时出现问题&#xff0c;提示华为PMS API client token auth failed 主要是权限的问题&#xff0c;创建项目的时候选择N/A

Windows11 家庭中文版关于本地组策略编辑器gpedit.msc找不到即打不开的解决办法(征诚小张售后实测有效)

Windows11 家庭中文版关于本地组策略编辑器gpedit.msc找不到即打不开的解决办法 根本原因&#xff1a;是因为Windows11家庭中文版的 版本系统没内置安装本地策略组编辑器 好了废话不多说 直接说解决办法 第一步 首先电脑上新建一个空文本文件 输入以下内容&#xff1a; echo o…

网络安全之原型链污染

目录&#xff1a; 目录&#xff1a; 一、概念 二、举例 三、 实操了解 总结 四、抛出原题&#xff0c;历年原题复现 第一题&#xff1a; 五、分析与原理 第二题&#xff1a; 八、分析与原理 九、具体操作&#xff0c;payload与结果 结果&#xff1a; 一、概念 Java…

Prometheus实现系统监控报警邮件

Prometheus实现系统监控报警邮件 简介 Prometheus将数据采集和报警分成了两个模块。报警规则配置在Prometheus Servers上&#xff0c; 然后发送报警信息到AlertManger&#xff0c;然后我们的AlertManager就来管理这些报警信息&#xff0c;聚合报警信息过后通过email、PagerDu…

ClickHouse SQL与引擎--基本使用(一)

1.查看所有的数据库 show databases; 2.创建库 CREATE DATABASE zabbix ENGINE Ordinary; ATTACH DATABASE ck_test ENGINE Ordinary;3.创建本地表 CREATE TABLE IF NOT EXISTS test01(id UInt64,name String,time UInt64,age UInt8,flag UInt8 ) ENGINE MergeTree PARTI…

webpack复习

webpack webpack复习 webpack基本配置 拆分配置 - 公共配置 生产环境配置 开发环境配置 使用merge webpack-dev-server 启动本地服务 在公共中引入babel-loader处理es6 webpack高级配置 多入口文件 enty 入口为一个对象 里面的key为入口名 value为入口文件路径 例如 pa…