aspose通过开始和结束位置关键词截取word另存为新文件

 关键词匹配实体类:

@Data
@EqualsAndHashCode(callSuper = false)
public class TextConfig implements Serializable {private static final long serialVersionUID = 1L;/*** 开始关键词,多个逗号分隔*/private String textStart ;/*** 结束关键词,多个逗号分隔*/private String textEnd ;/*** 包含关键词,多个逗号分隔*/private String textInclude ;/*** 不包含关键词,多个逗号分隔*/private String textExclude ;}
import com.aspose.words.*;
import lombok.Data;
import lombok.EqualsAndHashCode;
import lombok.SneakyThrows;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.io.FileUtils;
import java.io.*;
import java.nio.charset.StandardCharsets;
import java.util.List;
import java.util.*;@EqualsAndHashCode(callSuper = false)
@Slf4j
@Data
public class WordResolve extends Document {/*** 查找文本类型另存为word* @param filePathName  文件保存路径* @param copyFirst     是否复制关键词开始节点* @param copyLast      是否复制关键词结束节点*/@SneakyThrowspublic File findBetweenFile(TextConfig textConfig, String filePathName, boolean copyFirst, boolean copyLast) {List<Paragraph> paragraphs = getAllParagraph();Integer[] sec = findBetweenIndex(textConfig,getAllText());if(sec == null){return null;}Document doc = new Document();Body body = doc.getFirstSection().getBody();body.removeAllChildren();NodeImporter importer = new NodeImporter(this, doc, ImportFormatMode.KEEP_SOURCE_FORMATTING);Paragraph first = paragraphs.get(sec[0]);Paragraph last = paragraphs.get(sec[1]);List<CompositeNode<?>> parentNodes = new ArrayList<>(20);boolean startCopying = false;//读取文档的所有节点NodeCollection<?> allNodeList = this.getChildNodes(NodeType.ANY, true);for (int i = 0, j = allNodeList.getCount(); i < j; i++) {Node node = allNodeList.get(i);try{if (node == first) {startCopying = true;if(!copyFirst){continue;}}if (node == last && !copyLast) {// 到达结束节点后停止复制break;}if (startCopying) {boolean append = true;for (CompositeNode<?> parentNode : parentNodes) {NodeCollection<?> childNodes = parentNode.getChildNodes(node.getNodeType(), true);if(childNodes.contains(node)){append = false;break;}}if(append){try{body.appendChild(importer.importNode(node, true));}catch (Exception e){log.error("插入节点出错:{}",e.getMessage());//ignore}}}if (node == last) {// 到达结束节点后停止复制break;}}finally {if(startCopying && node.isComposite()){CompositeNode<?> compositeNode = (CompositeNode<?>) node;if(!parentNodes.contains(compositeNode)){parentNodes.add(compositeNode);}}}}File file = FileUtils.getFile(filePathName);doc.save(filePathName);return file;}/*** 查找文本类型解析规则的开始结束段落索引* @param   strings word全部段落,每个段落的文本*/public Integer[] findBetweenIndex(TextConfig textConfig, List<String> strings){String textStart = textConfig.getTextStart();String textEnd = textConfig.getTextEnd();//规定开始关键词必须包含哪些文字,多个逗号分隔(作为附加判断,可为空)textInclude = StringUtil.defaultString(textConfig.getTextInclude(), "").replace(",", "");//规定结束关键词必须不包含哪些文字,多个逗号分隔(作为附加判断,可为空)textExclude = StringUtil.defaultString(textConfig.getTextExclude(), "").replace(",", "");String[] in = StringUtil.isBlank(textInclude) ? null : textInclude.split(",");String[] out = StringUtil.isBlank(textExclude) ? null : textExclude.split(",");//满足开始位置和结束位置的全部关键词索引List<Integer> startArr = new ArrayList<>();List<Integer> endArr = new ArrayList<>();for (int i = 0; i < strings.size(); i++) {String text = strings.get(i);if (text.contains(textStart)) {startArr.add(i);}if (text.contains(textEnd)) {endArr.add(i);}}//进行包含和非包含的判断过滤if(!startArr.isEmpty() && !endArr.isEmpty()){for (Integer start : startArr) {for (Integer end : endArr) {//中间至少隔了一个段落if(start + 1 < end){StringJoiner jo = new StringJoiner("\n");for (int i = start + 1; i < end; i++) {jo.add(strings.get(i));}String word = jo.toString();boolean match = true;if(in != null){for (String s : in) {if(!word.contains(s)){match = false;break;}}}if(match && out != null){for (String s : out) {if(word.contains(s)){match = false;break;}}}if(match){return new Integer[]{start,end};}}}}}return null;}/*** 拿到文档全部段落文本*/public List<String> getAllText(){List<String> strings = new ArrayList<>();getAllParagraph().forEach(a-> strings.add(StringTool.safeToString(a.getText(), "")));return strings;}/*** 拿到文档全部段落*/public List<Paragraph> getAllParagraph(){if(allParagraph == null){allParagraph = findNodeByType(NodeType.PARAGRAPH, Paragraph.class);}return allParagraph;}
}

使用方式:

word文档内容如下:

要截取标题三和标题四之间的内容,生成新的word,代码如下:

public class Test {public static void main(String[] args) throws Exception{//验证license//new AsposeLicense().validate();//读取word文件WordResolve word = new WordResolve(new File("C:\\Users\\zhou\\Desktop\\测试.docx"));TextConfig detail = new TextConfig();detail.setTextStart("poi导出大数据量问题、写入速度慢");detail.setTextEnd("国密验签失败");File betweenFile = word.findBetweenFile(detail, "C:\\Users\\zhou\\Desktop\\betweenFile.docx", false, false);System.out.println(betweenFile);}}

 截取保存的文件如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/316303.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【HBuilder + IDEA + XFtp + XShell】打包部署上线

简述 前后端分离&#xff1a;需要将前后端的程序包打包发送至应用Linux服务器上Linux服务器 &#xff08;1&#xff09;需要启用SSHD服务&#xff0c;该服务会监听22号端口&#xff08;一般是开启的&#xff09; &#xff08;2&#xff09;搭建&#xff1a;MYSQL、Nginx、jdk、…

IPA打包过程中的Invalid Bundle Structure错误如果解决

在iOS应用程序开发中&#xff0c;打包和发布应用程序是一个必要的步骤。有的时候在打包的过程中可能会遇到一些错误&#xff0c;其中一个比较常见的错误是"Invalid Bundle Structure"。这个错误通常意味着应用程序的文件结构不正确&#xff0c;而导致的无法成功打包应…

基于深度卷积神经网络的猴痘分类识别系统

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 本文详细介绍了一基于深度卷积神经网络的猴痘分类识别系统。采用TensorFlow和Keras框架&#xff0c;通过卷积神经网络&#xff08;CNN&#xff09;进行模型训练和预测&#xff0c;利用迁移学习中的…

Linux 系统编程:文件系统

文件类型 Linux 文件分为 3 类&#xff1a; 普通文件&#xff1a;文本文件、二进制文件&#xff0c;要学习如何创建、复制、移动、重命名和删除这样的文件。目录&#xff08;Windows 中的“文件夹”与之类似&#xff09;伪文件&#xff1a;设备文件、命名管道、proc 文件&…

Simple Facebook Sign-In

简单的Facebook登录为Android、iOS、Windows、Mac、通用Windows平台(UWP)和Unity制作的WebGL应用程序提供了基于OAuth 2.0的Facebook登录。 优点: ● 跨平台游戏和应用程序的跨平台用户身份验证 ● 无插件,无第三方库,无依赖● 对建筑规模没有影响 ● 客户端-服务器应…

复试 || 就业day02(2024.01.02)项目一

文章目录 前言最小二乘法的推导使用正规方程求解 y w x b ywxb ywxb多元线性回归 y w 1 x 1 w 2 x 2 b yw1x1w2x2b yw1x1w2x2b总结 前言 &#x1f4ab;你好&#xff0c;我是辰chen&#xff0c;本文旨在准备考研复试或就业 &#x1f4ab;本文内容来自某机构网课&#xff…

视频会员付费系统源码 影视视频模版源码 模板PC+WAP苹果CMS影视模板源码

快猫视频会员付费视频系统/x站视频模板/苹果CMS影视模板/可打包成双端APP 适用程序&#xff1a;苹果cmsv10 兼容性和面向场景&#xff1a; 1、Windows 平台&#xff1a; IIS/Apache PHP&#xff08;5.6&#xff09; MySQL&#xff08;5.5&#xff09; 2、Linux/Unix 平台…

基于 ESP32-C3 开启 Flash 加密和安全启动并进行 OTA 测试

软件&#xff1a; esp-idf v5.1.2 硬件&#xff1a; ESP32-C3 board 1. 首先&#xff0c;准备一个明文固件 hello-world.bin 基于 esp-idf-v5.1.2\examples\get-started\hello_world 例程&#xff0c;使用如下指令&#xff0c;直接编译&#xff0c;获取明文固件 hello-worl…

哨兵1号回波数据(L0级)FDBAQ压缩算法详解

本专栏目录: 全球SAR卫星大盘点与回波数据处理专栏目录-CSDN博客 1. 全球SAR卫星回波数据压缩算法统计 各国的SAR卫星的压缩算法按照时间轴排列如下: 可以看出传统的分块BAQ压缩算法(上图粉色)仍然是主流,哨兵1号其实也有传统的BAQ压缩模式。 本文介绍哨兵1号用的FDBAQ算…

安卓Android Studio读写FM1208CPU卡源码

本示例使用的发卡器&#xff1a;https://item.taobao.com/item.htm?spma1z10.5-c-s.w4002-21818769070.11.6c46789elLwMzv&id615391857885 package com.usbreadertest;import androidx.appcompat.app.AppCompatActivity;import android.os.Bundle;import android.view.M…

Spring Boot 2.7.11 集成 GraphQL

GraphQL介绍 GraphQL&#xff08;Graph Query Language&#xff09;是一种用于API的查询语言和运行时环境&#xff0c;由Facebook于2012年创建并在2015年公开发布。与传统的RESTful API相比&#xff0c;GraphQL提供了更灵活、高效和强大的数据查询和操作方式。 以下是GraphQL…

关于时间格式yyyy-M-d或yyyy-MM-d到yyyy-MM-dd的转换

工作时遇到前端传的时间格式是"2023-12-3 17:41:52"&#xff0c;和"2023-1-1 17:41:52"但是我想要的是"2023-12-03 17:41:52"和"2023-01-01 17:41:52"。下面给大家分享几个解决方法 方法一&#xff1a; 找前端&#xff01;让他改&…