Python调用ImageMagick生成PDF文件缩略图

使用Python调用ImageMagick生成PDF文件缩略图

Imagemagick使用Ghostscript作为其依赖项之一,以便能够处理和转换PDF相关的图像。

准备

  • 安装Ghostscript,网站
  • 安装ImageMagick,网站

安装完毕后,需要自行配置环境路径

脚本

使用示例:

python .\get_thumbnail.py --filepath .\paper.pdf --page [4-8,12-17,20,24,27-] --output-dir test-dir

输出:

result

支持灵活传入页面参数
[ 4 − 8 , 12 − 17 , 20 , 24 , 27 − ] [4-8,12-17,20,24,27-] [48,1217,20,24,27]

  • 4-8、12-17:第4页到第8页、第12页到第17页
  • 20、24:第20页、第24页
  • 27-:从第27页到最后一页
import subprocess
import argparse
from pathlib import Path
from math import sqrt# 解析参数
parser = argparse.ArgumentParser()
parser.add_argument("--filepath", type=str, help="pdf文件路径")
parser.add_argument("--page",type=str,default="all",help="指定要生成缩略图的pdf文件页面 e.[1-3,8,10,27-] 默认为全部页面",
)
parser.add_argument("--shape", type=str, default="cube", help="指定缩略图的形状 e.[8x3] 默认为正方形")
parser.add_argument("--output-dir", type=str, default="./images", help="指定输出文件夹")
args = parser.parse_args()# 写一个函数,调用外部程序获取pdf文件总页数
def get_file_page_num(filepath: str):result = subprocess.run(["magick", "identify", "-format", "%n", filepath], stdout=subprocess.PIPE)# 获取命令行输出output = result.stdout.decode("utf-8")for i in range(1, 4):if len(output) == i * int(output[:i]):return int(output[:i])# 预处理参数
# 获取目标页面总数目以及详细页码
def get_dst_page(filepath: str, page_str: str):total_num = 0detail_page = []if page_str == "all":total_num = get_file_page_num(filepath)detail_page.append((1, total_num))else:for item in page_str.replace(" ", "")[1:-1].split(","):if "-" not in item:total_num += 1detail_page.append(int(item))if "-" in item and not item.endswith("-"):start, end = list(map(lambda x: int(x), item.split("-")))total_num += end - start + 1detail_page.append((start, end))if "-" in item and item.endswith("-"):start = int(item[:-1])end = get_file_page_num(filepath)total_num += end - startdetail_page.append((start, end - 1))return total_num, detail_pagedef get_per_page_idx(detail_page_scope: list):pages = []for item in detail_page_scope:if isinstance(item, tuple):for i in range(item[0], item[1] + 1):pages.append(i)else:pages.append(item)return pages# 自动推断比较合适的形状
def infer_shape(num):H = int(sqrt(num / sqrt(2)))W = int(num / H + 1)if H * W < num:H += 1return W, Hdef get_shape(num):if args.shape == "cube":shape = infer_shape(num)return f"{shape[0]}x{shape[1]}"else:return args.shape.replace(" ", "")if __name__ == "__main__":if not Path(args.output_dir).exists():Path(args.output_dir).mkdir()total_num, detail_page = get_dst_page(args.filepath, args.page)# 调用外部程序将每个指定的页面转换为缩略图# 必须指定"-alpha remove",否则生成的图片背景永远是黑色for item in detail_page:if isinstance(item, tuple):subprocess.run(["magick","convert","-thumbnail","x800","-alpha","remove",f"{args.filepath}[{item[0]}-{item[1]}]",str(Path(args.output_dir) / "output.png"),],shell=True,)else:subprocess.run(["magick","convert","-thumbnail","x800","-alpha","remove",f"{args.filepath}[{item}]",str(Path(args.output_dir) / f"output-{item}.png"),],shell=True,)print("参与生成缩略图的页面为:", get_per_page_idx(detail_page))image_list = list(map(lambda x: str(Path(args.output_dir) / f"output-{x}.png"),get_per_page_idx(detail_page),))# 调用外部程序合并缩略图subprocess.run(["magick","montage",*image_list,"-geometry","+0+0","-border","3","-bordercolor","black","-tile",f"{get_shape(total_num)}",str(Path(args.output_dir) / "result.jpg"),],shell=True,)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/29768.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

准备WebUI自动化测试面试?这30个问题你必须掌握(二)

本文共有11000字&#xff0c;包含了后十五个问题&#xff0c;如需要前十五个问题&#xff0c;可查看文末链接~ 16. 在WebUI自动化测试中&#xff0c;你如何处理验证码或图像识别的问题&#xff1f; 1. 人工识别&#xff1a;一种简单但费时费力的方法是使用人工手动识别验证码。…

pycharm里debug时torch数组显示不全

pycharm里查看torch数组全部值 一、在Pycharm运行torch数组时&#xff0c;通常只能看到数组的一部分二、解决办法1、debug后&#xff0c;鼠标右键想要查看完整的数组&#xff0c;选择Evaluate Expression2、输入np.array(x0.data)&#xff0c;x0为想要查看的数组名&#xff0c;…

Kubernetes Volume及其类型(NFS、SAN) - PV - PVC - PV与PVC与Pod的关系

目录 volume 卷 官方文档&#xff1a;卷 | Kubernetes 一、emptyDir&#xff08;临时卷&#xff09; 二、hostPath卷 type字段参数 hostPath 实验&#xff1a; 三、第3方提供的存储卷&#xff08;百度云、阿里云、亚马逊云、谷歌云等&#xff09; 四、local卷 五、NF…

mysql、redis 、RabbitMQ只能本机访问,怎么改?

如果只能本机访问&#xff0c;怎么改? 一、mysql - 改my.ini 刷脚本 bind-address0.0.0.0 然后重启一下mysql服务 任务管理器-关掉mysql 搜索 计算机管理-重启mysql服务 然后 打开查询&#xff0c;并选择mysql数据&#xff0c;输入这个sql语句&#xff0c;点击运行 sele…

解码 LangChain|用 LangChain 和 Milvus 从零搭建 LLM 应用

如何从零搭建一个 LLM 应用&#xff1f;不妨试试 LangChain Milvus 的组合拳。 作为开发 LLM 应用的框架&#xff0c;LangChain 内部不仅包含诸多模块&#xff0c;而且支持外部集成&#xff1b;Milvus 同样可以支持诸多 LLM 集成&#xff0c;二者结合除了可以轻松搭建一个 LLM…

Python 算法基础篇之数组和列表:创建、访问、添加和删除元素

Python 算法基础篇之数组和列表&#xff1a;创建、访问、添加和删除元素 引用 1. 数组的概念和创建2. 列表的概念和创建3. 访问数组和列表中的元素4. 添加和删除元素 a ) 添加元素 b ) 删除元素 总结 引用 在算法和数据结构中&#xff0c;数组和列表是常见的数据结构&#xff…

Nginx 解析漏洞复现

Nginx 解析漏洞复现 一、环境搭建二、漏洞原理三、漏洞复现 一、环境搭建 如下介绍kali搭建的教程 cd ~/vulhub/nginx/nginx_parsing_vulnerability // 进入指定环境 docker-compose up -d // 启动环境docker-compose ps使用这条命令查看当前正在运行的环境 访问http://y…

基于MATLAB的无人机遥感数据预处理与农林植被性状估算

查看原文>>>基于MATLAB的无人机遥感数据预处理与农林植被性状估算 在新一轮互联网信息技术大发展的现今&#xff0c;无人机、大数据、人工智能、物联网等新兴技术在各行各业都处于大爆发的前夜。为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节…

移动端深度学习部署:TFlite

1.TFlite介绍 &#xff08;1&#xff09;TFlite概念 tflite是谷歌自己的一个轻量级推理库。主要用于移动端。 tflite使用的思路主要是从预训练的模型转换为tflite模型文件&#xff0c;拿到移动端部署。 tflite的源模型可以来自tensorflow的saved model或者frozen model,也可…

spring-14优化性能

原始Junit测试Spring的问题 这里的&#xff1a;第一行代码获得应用上下文对象&#xff0c;第二行代码获得你那个对象 2、原先测试找junit&#xff0c;现在测试找spring&#xff0c;然后再找&#xff0c;junit&#xff0c;告诉我配置文件是什么&#xff0c;然后注入测试对象&am…

FPGA驱动SPI屏幕(附完整工程)

一. 简介 相信大家都玩过屏幕&#xff0c;在FPGA上使用最多的就是VGA/HDMI接口的显示器了&#xff0c;这两种显示器的优点就不用说了&#xff0c;缺点就是体积比较大&#xff0c;而且价格比较贵&#xff0c;对于追求便携/价格低的我来说&#xff0c;SPI接口的屏幕才是我的首要…

软件测试用例的八大步骤你都知道吗?

目录 第一步、UI体验测试 第二步、功能完整性测试 第三步、业务流程测试 第四步、容错机制测试 第五步、常规性测试 第六步、性能测试 第七步、交互体验测试 第八步、兼容性测试 总结&#xff1a; 第一步、UI体验测试 1.风格、样式、颜色是否协调 2. 界面布局是否整齐、…