Springboot使用pdfbox提取PDF图片

Springboot使用pdfbox提取PDF图片

  • PDFBox的介绍
  • Springboot集成PDFBox
  • 一、提取pdf首页为图像
    • 1. 实现需求
    • 2. 项目代码
    • 3. 执行结果
  • 二、将pdf内容全部转换为图像
    • 1. 实现需求
    • 2. 项目代码
    • 3. 执行结果
    • 4.注意事项
      • 1.优化项目代码
      • 2.提升Java heap size

PDFBox的介绍

PDFBox是一个用于创建和处理PDF文档的Java库。它可以使用Java代码创建、读取、修改和提取PDF文档中的内容。

PDFBox的功能:

  • Extract Text - 使用PDFBox,您可以从PDF文件中提取Unicode文本。

  • Split & Merge - 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。

  • Fill Forms - 使用PDFBox,您可以在文档中填写表单数据。

  • Print - 使用PDFBox,您可以使用标准Java打印API打印PDF文件。

  • Save as Image - 使用PDFBox,您可以将PDF保存为图像文件,如PNG或JPEG。

  • Create PDFs - 使用PDFBox,您可以通过创建Java程序创建新的PDF文件,还可以包含图像和字体。

  • Signing - 使用PDFBox,您可以将数字签名添加到PDF文件。

Springboot集成PDFBox

本项目除了引入pdfbox的依赖之外,还引入了解决图像问题的其他依赖。
例如:jai-imageio-jpeg2000jai-imageio-core是为了解决在转换图像时报错:Cannot read JPEG2000 image: Java Advanced Imaging (JAI) Image I/O Tools are not installed

jbig2-imageio依赖引入是为了解决使用pdfbox2.0将PDF转换为图片时后台报Cannot read JBIG2 image: jbig2-imageio is not installed错误

<!-- pdf提取封面依赖-->
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.22</version>
</dependency>
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox-tools</artifactId><version>2.0.22</version>
</dependency>
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>jbig2-imageio</artifactId><version>3.0.2</version>
</dependency>
<!-- 解決提取pdf "Cannot read JPEG2000 image"封面失败问题 -->
<dependency><groupId>com.github.jai-imageio</groupId><artifactId>jai-imageio-core</artifactId><version>1.3.1</version>
</dependency>
<dependency><groupId>com.github.jai-imageio</groupId><artifactId>jai-imageio-jpeg2000</artifactId><version>1.3.0</version>
</dependency>

一、提取pdf首页为图像

1. 实现需求

单个或者批量提取pdf的首页作为封面,或者可以实现提取指定pdf页为图像

2. 项目代码

核心工具类方法:PdfUtils.getPdfFirstImage

package com.zhouquan.utils;import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.ImageType;
import org.apache.pdfbox.rendering.PDFRenderer;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;/*** @author ZhouQuan* @desciption pdf工具类* @date 2023/6/17 9:52*/
@Slf4j
public class PdfUtils {/*** 提取pdf首页作为封面** @param pdfFile* @param dpi     the DPI (dots per inch) to render at* @return*/public static BufferedImage getPdfFirstImage(File pdfFile, float dpi) {long startTime = System.currentTimeMillis();if (!pdfFile.isFile() || !pdfFile.exists()) {return null;}try (PDDocument document = PDDocument.load(pdfFile)) {PDFRenderer pdfRenderer = new PDFRenderer(document);// 设置页数(首页从0开始)、每英寸点数、图片类型BufferedImage bufferedImage = pdfRenderer.renderImageWithDPI(0, dpi, ImageType.RGB);log.info("提取耗时:{}ms", System.currentTimeMillis() - startTime);return bufferedImage;} catch (Exception e) {log.error(e.getMessage());e.printStackTrace();return null;}}
}

service方法类,负责将读取的pdf的bufferedImage对象写入指定的图片对象中

package com.zhouquan.service.impl;import com.zhouquan.service.PdfService;
import com.zhouquan.utils.PdfUtils;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.io.FileUtils;
import org.apache.commons.io.FilenameUtils;
import org.apache.pdfbox.tools.imageio.ImageIOUtil;
import org.springframework.stereotype.Service;import java.awt.image.BufferedImage;
import java.io.File;/*** @author ZhouQuan* @desciption pdf提取相关类* @date 2023/6/17 9:40*/
@Slf4j
@Service
public class PdfServiceImpl implements PdfService {/*** 提取封面的存放路径*/private static String coverPath = "D:/pdf_test/cover";/*** 提取封面的文件后缀*/private static final String coverExt = "png";/*** pdf 提取封面** @param pdfFile pdf文件*/@Overridepublic void pickupCover(File pdfFile) {//要渲染的DPI(每英寸点数),可以理解为生成图片的清晰度,值越高生成质量越高int dpi = 300;try {//提取封面工具类BufferedImage bufferedImage = PdfUtils.getPdfFirstImage(pdfFile, dpi);//获取pdf文件名String fileName = FilenameUtils.getBaseName(pdfFile.getName());String currentCoverPath = coverPath + "/" + fileName + "." + coverExt;// 创建图片文件对象FileUtils.createParentDirectories(new File(currentCoverPath));// 将图片写入到图片对象中ImageIOUtil.writeImage(bufferedImage, currentCoverPath, dpi);byte[] coverByte = PdfUtils.bufferedImageToByteArray(bufferedImage);log.info("提取封面大小为: {}MB", String.format("%.2f", coverByte.length / 1024 / 1024.0));} catch (Exception e) {log.error(e.getMessage());}}
}

测试类

package com.zhouquan;import com.zhouquan.service.PdfService;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;import javax.annotation.Resource;
import java.io.File;@SpringBootTest
public class PdfTests {@Resourcepublic PdfService pdfService;/*** 提取单个文件封面*/@Testpublic void pickupCover() {String pdfFilePath = "D:/pdf_test/pdf/三体三部曲-刘慈欣.pdf";pdfService.pickupCover(new File(pdfFilePath), 0);}/*** 批量单个文件封面*/@Testpublic void batchPickupCover() {String pdfFilePath = "E:/开发项目/h化工出版社/opt";File[] files = new File(pdfFilePath).listFiles();if (files != null && files.length > 0) {for (File file : files) {pdfService.pickupCover(file, 0);}}}
}

3. 执行结果

1.单本pdf提取封面
在这里插入图片描述2.批量提取pdf封面
在这里插入图片描述

二、将pdf内容全部转换为图像

1. 实现需求

将pdf中所有的页转换为图片

2. 项目代码

核心工具类方法:PdfUtils.getPdfAllImage

  /*** 加载读取pdf并返回所有的BufferedImage对象** @param pdfFile pdf文件对象* @param dpi     the DPI (dots per inch) to render at* @return*/public static List<BufferedImage> getPdfAllImage(File pdfFile, float dpi) {if (!pdfFile.isFile() || !pdfFile.exists()) {return null;}//创建PDFDocument对象并加载PDF文件try (PDDocument document = PDDocument.load(pdfFile)) {//创建一个PDFRenderer对象并将PDDocument对象传递给它PDFRenderer pdfRenderer = new PDFRenderer(document);List<BufferedImage> bufferedImages = new ArrayList<>();BufferedImage bufferedImage;for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {System.out.println("pageIndex:" + pageIndex);// 设置页数(首页从0开始)、每英寸点数、图片类型bufferedImage = pdfRenderer.renderImageWithDPI(pageIndex, dpi, ImageType.RGB);bufferedImages.add(bufferedImage);}return bufferedImages;} catch (Exception e) {log.error(e.getMessage());e.printStackTrace();return null;}}

service方法类,负责将读取的pdf的bufferedImage列表对象按顺序写入指定目录的图片文件中

 @Overridepublic void pickupPdfToImage(File pdfFile) {//要渲染的DPI(每英寸点数),可以理解为生成图片的清晰度,值越高生成质量越高int dpi = 100;try {//提取封面工具类List<BufferedImage> pdfAllImage = PdfUtils.getPdfAllImage(pdfFile, dpi);log.info("共提取到{}页",pdfAllImage.size());String fileName = FilenameUtils.getBaseName(pdfFile.getName());String currentCoverPath;for (int i = 0; i < pdfAllImage.size(); i++) {currentCoverPath = coverPath + "/" + fileName + " 第" + i + "页" + "." + coverExt;// 创建图片文件对象FileUtils.createParentDirectories(new File(currentCoverPath));// 将图片写入到图片对象中ImageIOUtil.writeImage(pdfAllImage.get(i), currentCoverPath, dpi);}} catch (Exception e) {log.error(e.getMessage());}}

测试类

/*** 批量提取文件封面*/@Testpublic void pickupPdfToImage() {String pdfFilePath = "D:/pdf_test/pdf/三体三部曲-刘慈欣.pdf";pdfService.pickupPdfToImage(new File(pdfFilePath));}

3. 执行结果

在这里插入图片描述

4.注意事项

由于pdf的提取是将pdf文件加载到堆内存中进行操作,因此在提取过程中容易导致堆内存溢出Java heap space,简单来说就是在创建新的对象时, 堆内存中的空间不足以存放新创建的对象,导致此种问题的发生。
解决方案如下:

1.优化项目代码

根据报错信息定位到内存消耗较大的代码,然后对其进行重构或者优化算法。如果是在生产环境,务必要在内存消耗过大的代码出增加日志信息输出,否则容易像我定位一晚上才找到问题所在

2.提升Java heap size

增加堆内存空间设置,此种方式容易操作。可以较快解决当前问题,但是总体来说还是需要找到项目代码中的问题才是最优解,毕竟内存总是有限的

根据自己的硬件配置进行分配对空间,例如8G内存配置的内存参数:

-Xms4096m 
-Xmx4096m

关于pdfbox比较好的学习文档:
https://iowiki.com/pdfbox/pdfbox_overview.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/1707.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络安全系统教程+学习路线(自学笔记)

一、什么是网络安全 网络安全可以基于攻击和防御视角来分类&#xff0c;我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术&#xff0c;而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域&#xff0c;都有攻与防两面…

使用ganymed-ssh2连接linux报错 Cannot negotiate, proposals do not match

ganymed-ssh2连接linux报错 背景报错信息解决方案&#xff1a;运行成功 背景 最近有个项目&#xff0c;需要在Linux下的服务器内写了一部分Python脚本&#xff0c;业务处理却是在Java内&#xff0c;那么就想能不能在Java里面&#xff0c;来远程执行Linux下的Python脚本&#x…

css用法总结

1. 块级元素合并时边框重叠问题的解决方案 设置边框2px 红色 如果不做处理&#xff0c;仅仅添加边框则会是这个样子 设置处理后的样式 代码展示 2. 拥有边框的div , hover时的展示效果 代码展示 3. img 和 文字环绕展示 代码展示 设置左浮动即可 4. text-align: center; 可…

Video-LLaMa:利用多模态增强对视频内容理解

在数字时代&#xff0c;视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务&#xff0c;不仅需要视觉和听觉信号的整合&#xff0c;还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中…

MySQL主从复制与读写分离

MySQL主从复制与读写分离 一、读写分离1、什么是读写分离2、为什么要读写分离3、什么时候要读写分离 二、主从复制1、主从复制与读写分离2、MySQL支持的复制类型3、主从复制的工作过程4、MySQL读写分离原理5、常见的MySQL读写分离5.1 基于程序代码内部实现5.2 基于中间代理层实…

推或拉? rabbitMQ 消费模式该如何选择

系列文章目录 消息队列选型——为什么选择RabbitMQ RabbitMQ 五种消息模型 RabbitMQ 能保证消息可靠性吗 文章目录 系列文章目录前言一、推拉两种模式的概念二、推模式的使用及优势1. 使用2. 优劣 三、拉模式的使用及优势1. 使用2. 优劣 四、消费端Ack模式与Qos1. Ack模式2. Q…

RobotFramework +appium实现Android自动化

环境准备 1、已安装python37版本&#xff08;SDK、JDK均已安装完成&#xff0c;且环境变量都配置好了&#xff09;。 2、已安装robotframework。 3、已安装安卓模拟器&#xff08;本文使用夜神模拟器&#xff09;。 4、安装appium&#xff08;下载地址&#xff1a;http://6…

HOT19-螺旋矩阵

leetcode原题链接&#xff1a;螺旋矩阵 题目描述 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5]示例…

NAPT之NAT地址池、NAPT之easy-ip、NAT-Server

NAPT之NAT地址池 拓扑 需求 实现企业内网主机&#xff08;PC1-PC4&#xff09;访问公网网站服务器&#xff08;Server1&#xff09; 配置步骤 第一步&#xff1a;给PC1-PC4/Server1配置接口IP地址&#xff0c;掩码&#xff0c;网关 第二步&#xff1a;R1配置默认路由 -边界…

【强化学习】常用算法之一 “Q-learning”

作者主页&#xff1a;爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?typeblog个…

【期末不挂科 学习数据结构】

期末不挂科 学习数据结构 第一章绪论1.1数据结构的基本概念1.1.1基本概念和术语1.数据2.数据元素3.数据对象4.数据类型5.数据结构 1.1.2数据结构三要素1.数据的逻辑结构2.数据的存储结构3.数据的运算 第一章绪论 1.1数据结构的基本概念 1.1.1基本概念和术语 1.数据 数据是信…

cmd中输入npm install,回车——安装node modules依赖,出现报错的【解决方法】

目录 1.正常情况是&#xff1a; 2.当前问题&#xff1a; 3.解决方法&#xff1a; 当拿到一个前端项目的代码文件夹的时候,想要启动项目。 如果项目的代码文件夹里面没有node modules文件夹&#xff1a; 需要打开cmd&#xff0c;然后在里面输入 npm install &#xff08;可…