Pandas DataFrame 数据存储格式比较

Pandas 支持多种存储格式,在本文中将对不同类型存储格式下的Pandas Dataframe的读取速度、写入速度和大小的进行测试对比。

创建测试Dataframe

首先创建一个包含不同类型数据的测试Pandas Dataframe。

 import pandas as pdimport randomimport stringimport numpy as np# Config DFdf_length= 10**6start_date= '2023-01-01'all_string= list(string.ascii_letters + string.digits)string_length= 10**1min_number= 0max_number= 10**3# Create Columnsdate_col= pd.date_range(start= start_date, periods= df_length, freq= 'H')str_col= [''.join(np.random.choice(all_string, string_length)) for i in range(df_length)]float_col= np.random.rand(df_length)int_col= np.random.randint(min_number,max_number, size = df_length)# Create DataFramedf= pd.DataFrame({'date_col' : date_col, 'str_col' : str_col, 'float_col' : float_col, 'int_col' : int_col})df.info()df.head()

以不同的格式存储

接下来创建测试函数,以不同的格式进行读写。

 import time import osdef check_read_write_size(df, file_name, compression= None) :format= file_name.split('.')[-1]# Writebegin= time.time()if file_name.endswith('.csv') : df.to_csv(file_name, index= False, compression= compression)elif file_name.endswith('.parquet') : df.to_parquet(file_name, compression= compression)elif file_name.endswith('.pickle') : df.to_pickle(file_name, compression= compression)elif file_name.endswith('.orc') : df.to_orc(file_name)elif file_name.endswith('.feather') : df.to_feather(file_name)elif file_name.endswith('.h5') : df.to_hdf(file_name, key= 'df')write_time= time.time() - begin# Readbegin= time.time()if file_name.endswith('.csv') : pd.read_csv(file_name, compression= compression)elif file_name.endswith('.parquet') : pd.read_parquet(file_name)elif file_name.endswith('.pickle') : pd.read_pickle(file_name, compression= compression)elif file_name.endswith('.orc') : pd.read_orc(file_name)elif file_name.endswith('.h5') : pd.read_hdf(file_name)read_time= time.time() - begin# File Sizefile_size_mb = os.path.getsize(file_name) / (1024 * 1024)return [format, compression, read_time, write_time, file_size_mb]

然后运行该函数并将结果存储在另一个Pandas Dataframe中。

 test_case= [['df.csv','infer'],['df.csv','gzip'],['df.pickle','infer'],['df.pickle','gzip'],['df.parquet','snappy'],['df.parquet','gzip'],['df.orc','default'],['df.feather','default'],['df.h5','default'],]result= []for i in test_case :result.append(check_read_write_size(df, i[0], compression= i[1]))result_df= pd.DataFrame(result, columns= ['format','compression','read_time','write_time','file_size'])result_df

测试结果

下面的图表和表格是测试的结果。

我们对测试的结果做一个简单的分析

CSV

  • 未压缩文件的大小最大
  • 压缩后的尺寸很小,但不是最小的
  • CSV的读取速度和写入速度是最慢的

Pickle

  • 表现得很平均
  • 但压缩写入速度是最慢的

Feather

最快的读写速度,文件的大小也是中等,非常的平均

ORC

  • 所有格式中最小的
  • 读写速度非常快,几乎是最快的

Parquet

总的来说,快速并且非常小,但是并不是最快也不是最小的

总结

从结果来看,我们应该使用ORC或Feather,而不再使用CSV ?是吗?

“这取决于你的系统。”

如果你正在做一些单独的项目,那么使用最快或最小的格式肯定是有意义的。

但大多数时候,我们必须与他人合作。所以,除了速度和大小,还有更多的因素。

未压缩的CSV可能很慢,而且最大,但是当需要将数据发送到另一个系统时,它非常容易。

ORC作为传统的大数据处理格式(来自Hive)对于速度的和大小的优化是做的最好的,Parquet比ORC更大、更慢,但是它却是在速度和大小中取得了最佳的平衡,并且支持他的生态也多,所以在需要处理大文件的时候可以优先选择Parquet。

https://avoid.overfit.cn/post/387acc48c7dd42a49f7bec90cc6d09ae

作者:Chanon Krittapholchai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/97906.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为Mate 60系列安装谷歌服务框架,安装Play商店,Google

华为Mate 60 Pro悄悄的上架。但是却震撼市场的强势登场,Mate 60系列默认搭载的就是鸿蒙4.0。那么mate 60加上4.0是否可以安装谷歌服务框架呢?本机到手经过测试是可以安装的,但是在解决play非保护机制认证还通知这个问题上,他和鸿蒙3.0是不一样的。如果我…

U盾难管理?用U盾专用USB集线器

公司有一堆U盾要插着用,但是一台电脑也才两三个接口,怎么办? 三个字,很简单, 一台U盾专用的USB集线器就能解决。 U盾专用集线器为解决网银U盾连接问题而生。 它有四大好处! 集中管理 把所有U盾集中到一…

Opencv 图像金字塔----高斯和拉普拉斯

原文:图像金字塔----高斯和拉普拉斯 图像金字塔是图像中多尺度表达的一种,最初用于机器视觉和图像压缩,最主要用于图像的分割、融合。 高斯金字塔 ( Gaussian pyramid): 高斯金字塔是由底部的最大分辨率图像逐次向下采样得到的一系列图像…

静态路由配置实验:构建多路由器网络拓扑实现不同业务网段互通

文章目录 一、实验背景与目的二、实验拓扑三、实验需求四、实验解法1. 配置 IP 地址2. 按照需求配置静态路由,实现连接 PC 的业务网段互通 摘要: 本实验旨在通过配置网络设备的IP地址和静态路由,实现不同业务网段之间的互通。通过构建一组具有…

SpringCloudAlibaba之Sentinel介绍

文章目录 1 Sentinel1.1 Sentinel简介1.2 核心概念1.2.1 资源1.2.2 规则 1.3 入门Demo1.3.1 引入依赖1.3.2 集成Spring1.3.3 Spring中资源规则 1.4 Sentinel控制台1.5 核心原理1.5.1 NodeSelectorSlot1.5.2 ClusterBuilderSlot1.5.3 LogSlot1.5.4 StatisticSlot1.5.5 Authority…

故障分析 | OceanBase 频繁更新数据后读性能下降的排查

以下文章来源于爱可生开源社区 ,作者张乾 爱可生开源社区. 爱可生开源社区,提供稳定的MySQL企业级开源工具及服务,每年1024开源一款优良组件,并持续运营维护。 测试在做 OceanBase 纯读性能压测的时候,发现对数据做过…

【python】读取.dat格式文件

import binascii# 打开二进制文件以只读二进制模式 with open(EXCEL/文件.dat, rb) as file:binary_data file.read()print(binary_data)# 将二进制数据转换为十六进制字符串 hex_data binascii.hexlify(binary_data).decode(utf-8) # binary_data 现在包含了文件的二进制内容…

go web之一:hello world快速上手+handle(http.Handle和http.HandleFunc的区别与联系)

前情提要: 需要安装好go的环境和VSCode的go插件。 hello world快速上手 1、创建go.mod 在项目根目录下打开命令行,或者直接用VSCode中的终端。输入命令 go mod init github.com/solenovex/web-tutorial 然后就能看到项目结构中多了一个go.mod 2、…

CRM 自动化如何改善销售和客户服务?

许多 B2B 和 B2C 公司都使用 CRM 系统来组织业务流程,使复杂的任务更容易完成。企业可以使用 CRM 自动化来自动化工作流程,让团队有更多的时间来执行高价值的任务,而不是陷于一堆琐碎事情中。 什么是CRM自动化? CRM 自动化是指 C…

uni-app 之 安装uView,安装scss/sass编译

uni-app 之 安装uView,安装scss/sass编译 image.png image.png image.png 点击HBuilder X 顶部,工具,插件安装,安装新插件 image.png image.png 安装成功! 注意,一定要先登录才可以安装 image.png 1. 引…

01. Kubernetes基础入门

目录 1、前言 2、Kubernetes介绍 2.1、什么是Kubernetes 2.2、主要功能 2.3、与Docker的关系 2.4、Kubernetes集群架构体系 3、Kubernetes组件 3.1、核心组件 3.2、附加组件 4、Kubernetes对象 4.1、对象管理 4.2、命名空间 4.3、标签 1、前言 Docker 容器技术将…

【动态规划】面试题 08.01. 三步问题

Halo,这里是Ppeua。平时主要更新C,数据结构算法,Linux与ROS…感兴趣就关注我bua! 文章目录 0. 题目解析1. 算法原理1.1 状态表示1.2 状态转移方程1.3初始化1.4 填表顺序1.5 返回值 2.算法代码 🐧 本篇是整个动态规划的…