【Python数据分析系列】一文带你认识pd.DataFrame的组成（案例）-编程知识

【Python数据分析系列】一文带你认识pd.DataFrame的组成（案例）

这是我的第233篇原创文章。

一、引言

DataFrame是Pandas库中的一个重要数据结构，它类似于电子表格或数据库表。DataFrame是一个二维的、大小可变的表格数据结构，其中数据以行和列的形式排列。每一列可以是不同的数据类型（整数、浮点数、字符串等），类似于SQL表或Excel表。

二、组成

示例

import pandas as pddata = pd.read_csv('Dataset.csv')
df = pd.DataFrame(data)
print(df.head())

一个dataframe由索引（index）、字段（columns）、数值（values）三部分组成。

2.1 index

index = df.index
print(index)
print(type(index))
print(list(index))

索引（Index）：

DataFrame的行标签，用于唯一标识每一行。
可以是整数、字符串或其他类型的数据。
索引可以是单层的，也可以是多层的（层级索引）。
df.index返回的是一个RangeIndex对象，本质是一个一维列表，可以转化为列表对象将其打印出来。

2.2 columns

columns = df.columns
print(columns)
print(type(columns))
print(list(columns))

字段（Columns）：

DataFrame的列标签，用于唯一标识每一列。
每一列可以包含不同类型的数据，如整数、浮点数、字符串等。
列名可以是字符串类型。
df.columns返回的是一个Index对象，本质是一个一维列表，可以转化为列表对象将其打印出来。

2.3 values

values = df.values
print(values)
print(type(values))

数值（Values）：

实际存储在DataFrame中的数据，以二维数组（通常是NumPy数组）的形式表示。
每一行代表一个样本（观察值），每一列代表一个特征（变量）。
df.values返回的是一个二维数组对象。

三、表格数据的行和列

- 行(rows) = 样本（统计学、机器学习领域术语） = 元组/记录（数据库领域术语）
- 列(columns) = 特征（标签）/变量（统计学、机器学习领域术语） = 字段（数据库领域术语）

作者简介：

读研期间发表6篇SCI数据挖掘相关论文，现在某研究院从事数据算法相关科研工作，结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创，以最简单的方式理解和学习，关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/520968.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！