Parquet存储概述及读写时效对比

news/2025/3/10 11:52:41/文章来源:https://www.cnblogs.com/DidierFeng/p/18619315

1. Parquet简介

Parquet是一种开放的列式存储格式,旨在提高大数据处理和分析的效率。

Parquet由Twitter和Cloudera合作开发,并于2015年5月从Apache的孵化器项目毕业,成为Apache的顶级项目。

Parquet旨在高效存储和处理大规模数据集,广泛应用于Hadoop、Spark等大数据生态系统。

2. Parquet的基本原理

2.1. 列式存储

与传统的行式存储不同,Parquet将数据按列存储。这意味着在查询时,只需读取所需的列,而无需读取整行数据,从而大大减少了I/O操作,提高了查询效率。

2.2. 数据压缩

Parquet支持多种压缩算法,如Snappy、Gzip和Zstd等。这些算法可以显著减少存储空间,同时保持较高的读取速度。

2.3. 复杂数据类型

Parquet能够处理嵌套数据结构,如数组、映射等,这使得它非常适合存储和处理复杂的JSON和Avro数据。

2.4. 广泛的兼容性

Parquet能够与Hadoop、Spark、Hive等大数据处理框架无缝集成。

3. Parquet的应用场景

在数据仓库方面,Parquet可以用于存储事实表和维度表,提高查询性能和数据压缩率。

在日志分析方面,Parquet可以高效存储和查询大规模日志数据,快速发现和解决问题。

在实时数据分析方面,Parquet结合Spark Streaming等实时处理框架,支持低延迟的数据处理需求

在机器学习方面,Parquet广泛用于存储训练数据和模型参数,大大提高了数据处理效率和模型训练速度。

4. 百万级数据处理简单对比

本次对比使用数据量为百万行、十几列,读取和写入都使用pandas的dataframe,分别使用Excel格式、SQLite数据库、Parquet格式来读写数据。Excel使用xlsx格式;读取SQLite时,已经导入数据,存储时新建库表;Parquet的压缩使用gzip。

4.1. 读取时效比较

 

 

从上图中可以看出,使用Excel格式来读取数据大概需要681秒;通过SQLite来读取数据大概需要27秒;通过Parquet读取数据只需要1秒,哇哦,速度好快啊。

4.2. 写入时效比较

 

 

从上图可以看出,写入成Excel格式大概需要709秒;写入SQLite库大概需要33秒;写入成为Parquet格式,大概需要5秒,哇哦,也挺快的。

下次临时存取数据跑模型的时候,我果断选择Parquet格式,真是太快了。

5. 畅想

Parquet作为一种高效的列式存储格式,在大数据处理和分析领域发挥着重要作用。其独特的存储特性和优势使得它成为处理大规模数据集时的理想选择。随着大数据技术的不断发展,Parquet的应用前景将更加广阔。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/855860.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“息 壤” 升 级 !

12月3日,以“AI赋能 共筑数字新生态”为主题的2024数字科技生态大会在广州召开。主论坛上,中国电信集团有限公司总经理助理,天翼云科技有限公司董事长、总经理胡志强对“息壤”一体化智算平台的最新升级和应用进行了介绍。通过在算网调度、智算服务、智算生态三个方面的大规…

AI智能分析视频分析网关关于监控摄像头数据量对云存储服务影响的探讨

在数字化安防监控领域,监控摄像头数据量的激增对云存储服务带来了前所未有的挑战与机遇。随着技术的不断进步和监控需求的日益增长,监控摄像头所产生的数据量正以前所未有的速度增长,这对云存储服务的性能、容量及可靠性提出了更高要求。本文将深入探讨监控摄像头数据量对云…

Slort pg walkthrough Intermediate window

nmap ┌──(root㉿kali)-[~] └─# nmap -p- -A -sS 192.168.226.53 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-12-20 04:30 UTC Stats: 0:01:10 elapsed; 0 hosts completed (1 up), 1 undergoing Service Scan Service scan Timing: About 40.00% done; ETC: 04:…

终身免费下载!小学初中高中电子版教科书下载器

软件介绍 这是一款可以终身免费下载小学初中高中电子版教科书下载器,让学生和家长可以轻松下载和使用。无论是备课、自习还是复习,这些电子版教科书都能为您提供帮助。 软件支持免费下载小学到高中的电子版教科书,书籍版本囊括统编版、人教版、北京版、北师大版、冀教版、苏…

面向教学科研智能感知系统应用开发实验室

车辆感知系统在智能驾驶中扮演着至关重要的角色,它如同车辆的“眼睛”和“耳朵”,负责实时监测和解读周围环境信息。该系统通过集成摄像头、雷达、激光雷达等多种传感器,能够准确识别道路状况、行人和其他车辆,为智能驾驶提供可靠的数据支持。经纬恒润推出面向教学及科研应…

Windows Server 2019 Datacenter 激活码——亲测可用

目前网络上流行的 Windows Server 2019 KMS 激活可以很方便且快速完成激活,而且不用担心安全问题。如果您是计算机运维人员,那么 Windows Server 2019 想必肯定有接触不少,那么现在就来一起看看如何激活该系统吧。 Windows Server 2019 有三个版本,在安装的时候我们可以采用…

swagger 导出swagger.json在线预览接口

导出swagger.jsonhttp://<your-host>:<your-port>/v2/api-docs http://<your-host>:<your-port>/v3/api-docs在线预览 将swagger.json数据放入左侧,右侧在线预览:https://editor.swagger.io/ 作者:陈彦斌 出处:https://www.cnblogs.com/chenyanbin…

密码学-RSA的学习

密码学-RSA的学习 前文 1.历史1977年,三位数学家RonRivest、Adi Shamir 和 Leonard Adleman 设计了一种算法,可以实现非对称加密。这种算法用他们三个人的名字命名,叫做RSA算法 2.加密与解密mod就是进行取模运算,通俗来说就是求余数 这个d... 对d不是很解了3.密钥的生成通过…

App端合并需求

用这次的测试版本,去对比上一次的release版本,看数据是否一致 马上分期Android? 数据看板,这三个去掉 新开发的在ors-portal-test,与最新的realse版本进行比对(原生的就和这个对比,向开发确认ctest4是否为最新的),web端与ctest1对比 这次是用这个来测试,这个是新开发的…

OSG开发笔记(四十):使用OSG自绘拟合球形顶点

前言OSG内置的几何图形并没有球面,那么绘制球面先要绘制球面的组成顶点,本篇解说绘制球面组成顶点的详细过程。 Demo组成面的时候,为了看到是否正确,取中间的几个圆环:   回顾OSG坐标系理解OSG的坐标系类似于Qt场景坐标系,场景有场景的坐标系,图元有图元的坐标系,视图…

流量治理架构对比:当Kmesh遇上Ambient Mesh

Kmesh在控制面升级时或者重启时,即使BPF程序更新,也不会导致业务的连接中断。而节点级用户态代理,天然不具备升级重启不影响业务通信的能力。本文分享自华为云社区《流量治理架构对比:当Kmesh遇上Ambient Mesh》,作者:云容器大未来。 Kmesh是业内首个内核级流量治理引擎,…

ISUP协议视频平台EasyCVR在网页端播放RTSP流对带宽有什么要求?

在现代网络监控系统中,RTSP流的播放是一个关键的技术环节,它涉及视频的实时传输和监控。然而,由于RTSP流的播放在网页端存在一定的技术挑战,需要考虑多种因素,如视频分辨率、编码格式、帧率等,这些因素都会对带宽产生影响。 本文将详细介绍这些因素如何影响带宽需求,并探…