4种方法用Python批量实现多Excel多Sheet合并

目录

方法一:使用pandas库

方法二:使用openpyxl库

方法三:使用xlrd和xlwt库

方法四:使用os和glob库


在数据处理中,经常需要将多个Excel文件中的多个工作表进行合并。以下介绍了4种方法,使用Python批量实现多Excel多Sheet的合并。

方法一:使用pandas库

Pandas是Python中常用的数据处理库,提供了简便的数据处理功能。我们可以使用pandas的read_excel()函数读取Excel文件,然后使用concat()函数将多个工作表进行合并。

import pandas as pd  # 读取Excel文件  
file_list = ['file1.xlsx', 'file2.xlsx']  
dfs = [pd.read_excel(file) for file in file_list]  # 合并多个工作表  
result = pd.concat(dfs, ignore_index=True)  # 保存到新的Excel文件  
result.to_excel('merged.xlsx', index=False)

方法二:使用openpyxl库

Openpyxl是Python中处理Excel文件的库,可以直接操作Excel文件。我们可以使用openpyxl的load_workbook()函数读取Excel文件,然后使用Workbook和Worksheet类创建新的工作簿和工作表,将多个工作表的数据复制到新的工作表中,最后保存为新的Excel文件。

from openpyxl import load_workbook  
from openpyxl.utils import get_column_letter  
from openpyxl.utils import range_boundaries  
from openpyxl.writer.excel import save_virtual_workbook  
from openpyxl import Workbook  
from openpyxl.utils import get_column_letter  
from openpyxl.utils.dataframe import dataframe_to_rows  # 读取Excel文件  
file_list = ['file1.xlsx', 'file2.xlsx']  
merged_wb = Workbook()  
merged_ws = merged_wb.active  
merged_ws.title = "merged"  
headers = []  # 存储每个工作表的列名  
for file in file_list:  wb = load_workbook(filename=file)  ws = wb.active  # 获取第一个工作表  for row in ws[1:]:  # 获取列名  headers.append(row[0].value)  # 将列名添加到headers列表中  for row in ws:  # 获取数据行并复制到新的工作表中  new_row = []  # 存储新的一行数据  for cell in row:  # 遍历每个单元格并复制数据到新的行中  new_row.append(cell.value)  # 将单元格的值添加到新的行中  dataframe_to_rows(pd.DataFrame([new_row], columns=headers), index=False).map(lambda x: x.pop('Unnamed: 0'), axis=1).map(int).to_excel(merged_ws, index=False, header=False)  # 将新的行复制到新的工作表中,并设置数据类型为整数型  
merged_wb.save("merged.xlsx")  # 保存为新的Excel文件

方法三:使用xlrd和xlwt库

xlrd和xlwt是Python中用于读写Excel文件的库,可以处理.xls和.xlsx格式的文件。我们可以使用xlrd的open_workbook()函数读取Excel文件,然后使用Worksheet类获取工作表对象,遍历工作表中的所有数据,将数据写入新的Excel文件中。

import xlrd  
import xlwt  # 读取Excel文件  
file_list = ['file1.xls', 'file2.xls']  
workbook = xlrd.open_workbook(file_list[0])  # 创建新的Excel文件  
new_workbook = xlwt.Workbook()  
new_sheet = new_workbook.add_sheet('merged')  # 获取第一个工作表  
sheet = workbook.sheet_by_index(0)  # 合并多个工作表  
row = 0  # 当前行的索引  
for col in range(sheet.ncols):  # 遍历所有列  new_sheet.write(row, col, sheet.cell_value(0, col))  # 将列名写入新的工作表中  for row in range(1, sheet.nrows):  # 遍历所有数据行  new_sheet.write(row + row, col, sheet.cell_value(row, col))  # 将数据写入新的工作表中  new_workbook.save('merged.xls')  # 保存为新的Excel文件

方法四:使用os和glob库

如果需要批量处理多个文件夹中的多个Excel文件,可以使用os和glob库来获取所有需要处理的文件。然后使用上述方法处理每个文件中的多个工作表,最后将结果保存到新的Excel文件中。

import os  
import glob  
import pandas as pd  # 获取所有需要处理的Excel文件  
file_list = []  
folder_path = 'path/to/folder'  # Excel文件所在的文件夹路径  
for file in glob.glob(os.path.join(folder_path, '*.xlsx')):  # 获取所有.xlsx文件  file_list.append(file)  # 合并多个工作表并保存到新的Excel文件中  
result = pd.DataFrame()  # 存储合并后的数据  
for file in file_list:  df = pd.read_excel(file)  # 读取Excel文件中的数据到DataFrame中  result = pd.concat([result, df])  # 将数据追加到结果中  
result.to_excel('merged.xlsx', index=False)  # 将结果保存到新的Excel文件中

在上述方法中,我们可以根据实际需求选择适合的方法进行多Excel多Sheet的合并。方法一和方法二适用于处理单个Excel文件中的多个工作表,而方法三和方法四则适用于批量处理多个Excel文件中的多个工作表。在实际应用中,我们可以根据数据量的大小、处理速度的要求以及个人偏好选择适合的方法。

注意事项

使用Python批量实现多Excel多Sheet合并时,需要注意以下事项:

  1. 文件路径和文件名:确保提供的文件路径和文件名正确无误,避免出现文件找不到或路径错误的情况。
  2. 文件格式和版本:确保所有要合并的Excel文件都是相同格式(如.xlsx)和版本,以免出现不兼容或读取错误。
  3. 表格格式和内容:在合并前,检查每个工作表的结构和内容是否一致,是否存在不同的列或数据类型。如果有差异,需要进行相应的处理或调整。
  4. 空值和缺失值:在合并过程中,可能会遇到空值或缺失值的情况。需要对这些值进行适当处理,例如填充、忽略或保留原始格式。
  5. 重复数据:合并多个Excel文件时,可能会存在重复的数据行。需要编写适当的逻辑来处理这些重复数据,例如保留最新的数据或根据特定条件进行筛选。
  6. 性能和内存使用:对于大量数据和多个Excel文件的合并操作,需要注意程序的性能和内存使用情况。如果数据量较大,可能需要考虑分批处理或使用更高效的数据处理方法。
  7. 错误处理:在合并过程中,可能会遇到各种错误,如文件损坏、格式不正确等。编写适当的错误处理逻辑可以帮助识别和处理这些错误,避免程序崩溃或数据丢失。
  8. 代码可维护性和可读性:编写易于理解和维护的代码可以提高代码的质量和可读性。注释、清晰的变量名和使用有意义的函数和方法名称等都是提高代码可读性的有效方法。
  9. 文档和注释:为代码添加文档和注释可以帮助其他人理解你的代码逻辑和实现方式。这对于团队合作或代码维护非常有用。
  10. 测试和验证:在合并之前,对每个单独的Excel文件进行测试和验证可以确保合并操作的有效性和准确性。通过比较合并前后的数据,可以发现潜在的问题并进行相应的修复。

此外,除了上述方法外,还有一些第三方库如pyexcelerate等也可以实现多Excel多Sheet的合并。这些库提供了更多的功能和灵活性,可以根据实际需求选择适合的库进行使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/410931.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一、MySQL 卸载

目录 1、软件的卸载准备 2、软件的卸载 方式一:通过控制面板卸载 方式二:通过mysql8的安装向导卸载 1、双击mysql8的安装向导 2、取消更新 3、选择要卸载的mysql服务器软件的具体版本 4、确认删除数据目录 5、执行删除 6、完成删除 3、清理残…

视频美颜SDK技术解析与技术对比

当下,各类应用和服务纷纷采用视频美颜SDK,以提供更加令人满意的视觉效果。本文将深入探讨视频美颜SDK的技术原理,同时对比不同SDK的特性,为开发者和决策者提供全面的技术参考。 一、技术原理解析 1.图像处理基础 视频美颜SDK基…

【算法与数据结构】62、LeetCode不同路径

文章目录 一、题目二、解法2.1 动态规划解法2.2 数论解法 三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 2.1 动态规划解法 思路分析:机器人只能向下或者向右移动,那么到达&a…

CTF CRYPTO 密码学-4

题目名称:奇怪的先生 题目描述: 描述:oss先生将三个培根的中间一只移到了左边,然后咬了一小口最后一根,说真好吃,真是个奇怪的先生! 密文:VlM5WnlXc0ZibEhmMmE1ZHYxMDlhVkdmMlk5WmtRPT0 分析 应该是根据题…

VUE 中的 v-for 和 v-if 是否可以共存

VUE 中的 v-for 和 v-if 是否可以共存 前言1、面试经2、正确回答3、总结总结: 前言 要成功,先发疯,头脑简单往前冲! 三金四银,金九银十,多学知识,也不能埋头苦干,要成功&#xff0c…

【动态规划】【数学】【C++算法】18赛车

作者推荐 视频算法专题 本文涉及知识点 动态规划 数学 LeetCode818赛车 你的赛车可以从位置 0 开始,并且速度为 1 ,在一条无限长的数轴上行驶。赛车也可以向负方向行驶。赛车可以按照由加速指令 ‘A’ 和倒车指令 ‘R’ 组成的指令序列自动行驶。 当…

物联网中的通信技术

阅读引言: 本文主要大致为大家带来物联网中的常见的通信方式的知识梳理。 目录 一、概述 二、无线通信技术 1.物联网电子标签 RFID 1.1 RFID 概念 1.2 RFID 系统组成 2.WI-FI技术 3.UWB技术 4.ZigBee技术 5.NFC技术 6.蓝牙技术 7.EnOcean技术 一、概述 物…

Spark SQL函数定义

目录 窗口函数 SQL函数分类 Spark原生自定义UDF函数 Pandas的UDF函数 Apache Arrow框架基本介绍 基于Arrow完成Pandas DataFrame和Spark DataFrame互转 基于Pandas完成UDF函数 自定义UDF函数 自定义UDAF函数 窗口函数 分析函数 over(partition by xxx order by xxx [as…

10- OpenCV:基本阈值操作(Threshold)

目录 1、图像阈值 2、阈值类型 3、代码演示 1、图像阈值 (1)图像阈值(threshold)含义:是将图像中的像素值划分为不同类别的一种处理方法。通过设定一个特定的阈值,将像素值与阈值进行比较,根…

GaussDB(DWS)查询优化技术大揭秘

GaussDB(DWS)查询优化技术大揭秘 大数据时代,数据量呈爆发式增长,经常面临百亿、千亿数据查询场景,当数据仓库数据量较大、SQL语句执行效率低时,数据仓库性能会受到影响。本文将深入讲解在GaussDB(DWS)中如何进行表结构设计&#…

国际版WPS Office 18.6.1

【应用名称】:WPS Office 【适用平台】:#Android 【软件标签】:#WPS 【应用版本】:18.6.1 【应用大小】:160MB 【软件说明】:软件日常更新。WPS Office是使用人数最多的移动办公软件。独有手机阅读模式…

蓝桥杯备赛 day 3 —— 高精度(C/C++,零基础,配图)

目录 🌈前言: 📁 高精度的概念 📁 高精度加法和其模板 📁 高精度减法和其模板 📁 高精度乘法和其模板 📁 高精度除法和其模板 📁 总结 🌈前言: 这篇文…