数据_数据格式-parquet

news/2025/1/10 17:27:37/文章来源:https://www.cnblogs.com/ytwang/p/18664355

格式分类

    存储格式 vs 运行时内存格式 vs 消息传递格式	1.存储格式2. 一旦从存储格式中读取数据,你需要将数据转换为另一种表示形式,以便对其进行操作和计算。这种表示形式称为内存中的运行时表示或格式 字节对齐和随机读取与顺序读取的差异像 Arrow 和 FlatBuffers 这样的格式,其进程间表示与内存表示是相同的3.	消息传递格式,比如 Protobuf、FlatBuffers 和 JSON Protobuf 的官方文档指出其最适合的消息大小是小于 1 MB		   关注点: 数据大小-序列化/反序列化速度-易用性(可读性和兼容性)存储成本/ 输入/输出(I/O)成本和数据检索的带宽成本以及网络延迟
数据的使用方式不同,在优化读取与优化写入之间通常会存在取舍Parquet 和 ORC 采用列式存储形式,通常比 CSV 和 Avro 更具压缩性 

Parquet文件和Arrow格式

 Hugging Face数据集的角度出发:Parquet格式能够高效地存储结构化和半结构化数据,特别适合大规模数据集的存储和查询Arrow 是一个跨语言的数据交换格式,主要用于内存中的数据存储和数据传输Parquet格式 是一种用于数据持久化存储的格式,而 Arrow格式 是一种高效的内存存储和传输格式Hugging Face  datasets库会将这些 Parquet文件解码成 Arrow格式,并将数据加载到内存	 pandas来读取该Parquet文件Pandas 使用 PyArrow 将Parquet数据加载到内存,但会将数据复制到了Pandas的内存空间中Polars 读取Parquet时,Polars会直接复制进Arrow的内存空间,且始终使用这块内存

Python 数据分析

Polars使用 Apache Arrow 作为内存模型,这使得它在处理数据时能够更高效地利用内存	

参考

 存了50TB,巨能装的Pyarrow + parquet方案 https://zhuanlan.zhihu.com/p/675767714https://pola-rs.github.io/polars-book-cn/user-guide/introduction.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/867234.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

KingbaseES RAC在线扩容案例

KingbaseES、KingbaseES RAC案例说明: KingbaseES RAC在两节点的基础上,执行在线扩容为3节点。 集群版本: test=# select version();version ---------------------KingbaseES V008R006 (1 row)集群架构:操作系统: [root@node210 KingbaseHA]# cat /etc/os-release NAME=&…

Xinference:企业级大模型推理和部署平台

导读 近年来,大语言模型(LLM,后简称大模型)的发展突飞猛进。本文将分享未来速度公司在开源领域以及大模型落地过程中的核心产品——Xinference,其定位是一个真正企业级的、严肃的大模型推理和部署平台。公司致力于在 LLMOps(大模型运维)过程中,帮助大家降低部署的成本和…

【Java开发】面对一个访问量比较高的API,我们应该如何去应对突然暴涨的流量呢?

一、流量管理与限流 1. 流量限制和速率限制: 例如,当请求频率超过预设阈值时,系统可以自动限制或拒绝额外的请求,从而保护后端服务免受过多请求的影响。 通过API网关或负载均衡器进行配置,以控制每个用户或IP的请求速率。 2. 使用限流算法: 令牌桶算法:适合应对瞬时突发…

高效团队协作:在线工具在酒店管理中的实践

1. 酒店运营的复杂性与信息管理的挑战 酒店行业是一个高度复杂和依赖信息的行业。从前台接待到客房服务,从市场营销到财务管理,每个环节都需要精准的数据对接与高效的沟通。然而,在传统管理模式下,信息传递通常依赖于邮件、电话或线下会议,不仅效率低下,还容易导致信息遗…

Centos7 离线安装nginx教程

步骤一:安装nginx三个依赖openssl 、pcre、zlib pcre:https://sourceforge.net/projects/pcre/files/pcre/8.45/(版本:pcre-8.45.tar.gz)zlib:http://www.zlib.net/(版本:zlib-1.2.13.tar.gz)oppenssl:https://www.openssl.org/source/(版本:openssl-1.1.0h.tar.gz…

JS-27 字符串方法_split()

split方法按照给定规则分割字符串,返回一个由分割出来的子字符串组成的数组 it|sxt|zifuchuan.split(|)//["it","sxt","zifuchuan"] 如果分割规则为空字符串,则返回数组的成员是原字符串的每一个字符。 a|b|c.split()//["a","|…

找不到 .NETFramework,Version=v4.0 的引用程序集问题

高版本操作系统默认安装.NETFramework4.6或以上时,系统用4.0的msbuild 命令编译导致 找不到4.0的程序集问题 1.下载nuget版本的资源包 https://www.nuget.org/packages/Microsoft.NETFramework.ReferenceAssemblies.net40/ microsoft.netframework.referenceassemblies.net40.…

嵌入式截屏工具-gsnap移植 arm平台

# 目录 - [前言](#前言) - [正文](#正文)- [原理](#原理)- [环境](#环境)- [详细流程](#详细流程)- [使用](#使用) - [参考](#参考)# 正文 ## 原理 ### 前提条件: 嵌入式机器要支持`/dev/fb0`这个设备节点。不然,这个工具基本就使用不了了。### 原理: 由于 Linux 系统的 Frame…

AIME2019 I

AIME2019 I 的题目订正。√√√√ √√.√√ ...√. \(= 9\) https://artofproblemsolving.com/wiki/index.php/2019_AIME_I_Problems P4 寄啦! 唐题。分讨 substitution 的次数即可。 P5 对啦! DP。 令 \(f_{x,y}\) 为走到 \((x,y)\) 的概率。边界情况为 \(f_{4,4} = 1\)。答…

通过本地私有的镜像仓库harbor解决网络原因导致的jdk无法加载而造成的docker打包错误.v2.250110

​各种网络原因,或是docker.io无法访问,或是阿里的镜像源故障,导致java打包发布的时候报错,很影响代码发布的质量。解决思路:墙出去把jdk下载下来,代码使用本地的harbor库进行引用,一劳永逸。此解决方法也适用于国外优质不频繁变动的镜像源的本地化使用。解决方法 1. 自…

[题目记录]AGC005E Sugigma: The Showdown

一道通过自己生成思路做出的思维题 . 通过分析博弈过程发现问题其实没有那么复杂 , 然后层层分析转化问题即可 .AGC005E Sugigma: The Showdown 题意 给出两棵树 , 点的编号相同 , 连边方式不同 . 初始 A 在树 \(a\) 上的点 \(x\) , B 在树 \(b\) 上的点 \(y\) , 两人轮流走 , …

代码随想论算法训练营第3天 | 链表理论基础,203.移除链表元素,707.设计链表,206.反转链表

一、刷题部分 1.1 链表理论基础原文链接:代码随想录 题目链接:🈚️链表是由一个个节点串联而成的,节点包含数据域和指针域,数据域用来存放数据,而指针域实现了节点之间的串联。 链表中有单链表、双链表、循环链表:链表的物理空间是不连续的,通过指针存储下一节点的物理…