【Python】Word文档操作-编程知识

【Python】Word文档操作

news/2025/1/23 13:08:48/文章来源:https://www.cnblogs.com/mindzone/p/18291962

一、全文替换

不是创建word文档写入内容，而是基于现有的Word文档进行替换处理

使用run.text直接赋值修改发现样式会丢失，而网上大部分办法都是这么写的...

直到我看到这篇文章的评论：

https://blog.csdn.net/qq_40222956/article/details/106098464

除了段落替换后，Word文档还插入了表格，后来反应过来表格的单元格也是有段落属性

同样需要通过段落对象拿到run进行替换

直接上代码：

# 全文替换操作，且不丢失文档样式
def replace_text_in_doc(doc: Document):# 段落内容替换for para in doc.paragraphs:for idx, run in enumerate(para.runs):para_text = run.text.strip()if not para_text:continuemodified_text = mustache_clear(para_text)para.runs[idx].text = modified_text# 单元格内容替换for table in doc.tables:for row in table.rows:for cell in row.cells:for cell_para in cell.paragraphs:for idx, cp_run in enumerate(cell_para.runs):cpr_text = cp_run.text.strip()if not cpr_text:continuemodified_text = mustache_clear(cpr_text)cell_para.runs[idx].text = modified_textdoc.save(new_doc_path)return

二、读取文档标题：

发现文档标题有好几种style名称

# 标准标题style类型名
headerTags = ['Heading 1','Heading 2','Heading 3','Heading 4','Heading 5','Heading 6',
]# 目录style类型名
tocTypes = ['toc 1','toc 2','toc 3','toc 4','toc 5''toc 6'
]# 附录自定义style类型名
customHeaders = ['附录一级标题','附录二级标题','附录三级标题','附录四级标题','附录五级标题',
]

但是toc类型的是最多最全的，这里就用toc来找标题了

代码实现：

通过toc读取的段落，除了文本本身还会附带标题下标

所以这里还做了下标拆分和保留的逻辑

# 目录style类型名
tocTypes = ['toc 1','toc 2','toc 3','toc 4','toc 5''toc 6'
]# 读取所有目录信息
def get_all_toc_title_text(doc: Document):print('- - - - - - 读取所有目录信息 - - - - - - ')toc_list = []for para in doc.paragraphs:if para.style.name in tocTypes:rough_collect = para.text.split()# 标题信息title = ' '.join(rough_collect[: -1])# 标题下标title_idx = rough_collect[-1]toc_list.append(title)print(f"{title} | {title_idx}")return toc_list

三、读取文档表格：

表格读取没有过多要声明的

# 读取所有表格
def get_all_tables(doc: Document):print('- - - - - - 读取所有表格 - - - - - - ')for table in doc.tables:print('- - - - - - table - - - - - - ')for row in table.rows:for cell in row.cells:print(f"{cell.text} | ", end='')print()return

但是读取指定部分的表格就有点费劲了

表格的话这里只有下标可以访问第几个表格，所以只能从表格内容为特征入手

例如附录D的表格头的列信息固定是这几个文本：

appendix_d_spec = {'安全控制点', '测评指标', '结果记录', '符合程度'}

docx读取的时候，顺序会不一致，所以用集合装填元素，只要取出的集合和特征集合元素一样即可

逻辑代码：

# 读取所有附录D的表格数据
def get_appendix_d_tables(doc: Document):print('- - - - - - 读取所有附录D的表格数据 - - - - - - ')for table in doc.tables:first_row = table.rows[0].cellscol_len = len(first_row)cell_name_list = {cell.text for cell in first_row}print(cell_name_list)if len(cell_name_list) != 4:continuecell_name = ' | '.join(cell_name_list)print(f"cell_name -> {cell_name}, col_len -> {col_len} ")if appendix_d_spec != cell_name_list:continueprint('- - - - - - 附录D表格开始 - - - - - - ')for row in table.rows:each_row = " | ".join({cell.text for cell in row.cells})print(each_row)print('- - - - - - 附录D表格结束 - - - - - - ')return

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/741165.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【ubuntu】安装go

一、官网 https://golang.google.cn/dl/ 选择稳定版本，点击下载二、安装步骤 1、解压2、移动目录sudo mv go /usr/local3、配置环境变量 vim ~/.bashrcexport PATH=$PATH:/usr/local/go/bin export GOPATH=$HOME/gocode创建gocode目录 vim ~/.profile 添加同样配置三、验证$ g…

2024迎新马拉松——字典

思路这道题可以把每个单词正过来放在一个字典树里。把每个单词反过来，给每个单词单独建立一个字典树。而询问要求的就是前缀在正串的字典树上的那个节点为根的子树中，所有串的反串字典树合并之后的那个字典树上，后缀的那个节点所对应的子树当中有多少个串就是答案。举个…

win11系统连接共享打印机提示 0x0000709

windows11 用户在添加共享打印机的时候，遇到了系统错误提示：操作无法完成（错误0x0000709）其他查考文章： https://baijiahao.baidu.com/s?id=1788757659395932042&wfr=spider&for=pc

24迎新马拉松——字典

思路这道题我们可以把每个单词正过来放在一个字典树里。而我们把每个单词反过来，给每个单词单独建立一个字典树。而询问要求的就是前缀在正串的字典树上的那个节点为根的子树中，所有串的反串字典树合并之后的那个字典树上，后缀的那个节点所对应的子树当中有多少个串就是答…

香橙派5plus上跑云手机方案二 waydroid

前言上篇文章香橙派5plus上跑云手机方案一 redroid(带硬件加速)说了怎么跑带GPU加速的redroid方案，这篇说下怎么在香橙派下使用Waydroid。温馨提示虽然能运行，但是体验下来只能用软件加速，无法使用GPU加速，所有会很卡。而且Waydroid还依赖于桌面环境wayland，要么插上显…

弹性伸缩落地实践

1. 什么是 HPA ? HPA（Horizontal Pod Autoscaler）是 Kubernetes 中的一种资源自动伸缩机制，用于根据某些指标动态调整 Pod 的副本数量。 2. 什么时候需要 HPA ？负载波动：当您的应用程序的负载经常发生波动时，HPA 可以自动调整 Pod 的副本数量，以适应负载的变化。例如，…

三星 NAND FLASH命名规范 Samsung NAND Flash Code Information

一共有三页，介绍了前面主要的编号和横杠后面的编号，当前文档只关注前面的编号。从前面的命名规范中可以得知当前芯片的容量、技术等概要信息，对芯片有一个整体了解。详细解释 Small Classification 表示存储单元的类型和应用，比如 SLC 1 Chip XD Card 表示是SLC的，包含1…

[转]ZeroMQ用法说明及C++示例

原文链接：https://blog.csdn.net/qq_40344790/article/details/130865273ZMQ介绍官网：https://zeromq.org/ Github：https://github.com/zeromq/libzmq ZMQ（ZeroMQ）是一种高性能的异步消息传递库，它可以在不同的进程和机器之间进行消息传递。它提供了多种传输协议、通信模…

Solidity：assembly

在Solidity中，assembly是一个内嵌的低级语言，它允许开发者直接编写EVM（以太坊虚拟机）字节码。这种能力使得开发者可以更精细地控制智能合约的行为，并且在某些情况下可以提高性能和减少gas费用。然而，使用assembly也增加了代码的复杂性和出错的可能性，因此应谨慎使用。为…

K8s 驱逐场景以及规避方案

Pod 驱逐场景总结从一个 SRE 角度看， Pod 驱逐分为两种情况：较安全驱逐 & 提高稳定性的良性驱逐API 发起驱逐，典型案例：kubectl drain Node Not Ready 时，Controller Manager 发起的驱逐有风险的驱逐节点压力驱逐节点磁盘空间不足、内存不足或 Pid 不足， kubelet 发…

[二、状态管理]1状态管理概述

在前文的描述中，我们构建的页面多为静态界面。如果希望构建一个动态的、有交互的界面，就需要引入“状态”的概念。图1 效果图上面的示例中，用户与应用程序的交互触发了文本状态变更，状态变更引起了UI渲染，UI从“Hello World”变更为“Hello ArkUI”。在声明式UI编程框架…

lazarus 项目用到的控件

官网 https://www.lazarus-ide.org/ 基本上都是原生插件，能同时满足WINDOWS和Linux下开发用到的控件