关于使用python将pdf转图片,网上大部分教程在讲pdf2image包
https://pypi.org/project/pdf2image/
它需要用到一个poppler的程序,但是给的下载链接都过期了,去github下载最新项目发现路径下只有Library、share
https://gh.jiasu.in/https://github.com/oschwartz10612/poppler-windows/releases/download/v0.90.1/release.zip
安装完成记得重启电脑
from pdf2image import convert_from_path
from PIL import Image
import osdef getAllSub(path, dirlist=[], filelist=[]):"""递归获取所有文件目录、和文件参数:path -- 要获取所有文件的目录dirlist -- 保存所有文件夹路径filelist -- 保存所有文件路径"""flist = os.listdir(path)for filename in flist:subpath = os.path.join(path, filename)if os.path.isdir(subpath):dirlist.append(subpath) # 如果是文件夹,添加到文件夹列表中getAllSub(subpath, dirlist, filelist) # 向子文件内递归if os.path.isfile(subpath):filelist.append(subpath) # 如果是文件,添加到文件列表中return dirlist, filelistdef convert_pdf_to_jpg(pdf_path, output_folder):"""将PDF文件转换为JPG图像。参数:pdf_path -- PDF文件的路径output_folder -- 保存转换后JPG图像的文件夹路径"""# 确保输出目录存在os.makedirs(output_folder, exist_ok=True)# 将PDF转换为图像列表images = convert_from_path(pdf_path)for i, image in enumerate(images):# 构建输出文件名jpg_filename = os.path.join(output_folder, f"page_{i+1}.jpg")# 保存每一页为JPGimage.save(jpg_filename, 'JPEG')# 使用示例
pdf_file = ''
output_dir = ''
convert_pdf_to_jpg(pdf_file, output_dir)# 指定文件夹路径
# directory_path = ''
# dirlist, filelist = getAllSub(directory_path)
# print(filelist)