这是我的第233篇原创文章。
一、引言
DataFrame是Pandas库中的一个重要数据结构,它类似于电子表格或数据库表。DataFrame是一个二维的、大小可变的表格数据结构,其中数据以行和列的形式排列。每一列可以是不同的数据类型(整数、浮点数、字符串等),类似于SQL表或Excel表。
二、组成
示例
import pandas as pddata = pd.read_csv('Dataset.csv')
df = pd.DataFrame(data)
print(df.head())
一个dataframe由索引(index)、字段(columns)、数值(values)三部分组成。
2.1 index
index = df.index
print(index)
print(type(index))
print(list(index))
索引(Index):
- DataFrame的行标签,用于唯一标识每一行。
- 可以是整数、字符串或其他类型的数据。
- 索引可以是单层的,也可以是多层的(层级索引)。
- df.index返回的是一个RangeIndex对象,本质是一个一维列表,可以转化为列表对象将其打印出来。
2.2 columns
columns = df.columns
print(columns)
print(type(columns))
print(list(columns))
字段(Columns):
- DataFrame的列标签,用于唯一标识每一列。
- 每一列可以包含不同类型的数据,如整数、浮点数、字符串等。
- 列名可以是字符串类型。
- df.columns返回的是一个Index对象,本质是一个一维列表,可以转化为列表对象将其打印出来。
2.3 values
values = df.values
print(values)
print(type(values))
数值(Values):
- 实际存储在DataFrame中的数据,以二维数组(通常是NumPy数组)的形式表示。
- 每一行代表一个样本(观察值),每一列代表一个特征(变量)。
- df.values返回的是一个二维数组对象。
三、表格数据的行和列
- 行(rows) = 样本(统计学、机器学习领域术语) = 元组/记录(数据库领域术语)
- 列(columns) = 特征(标签)/变量(统计学、机器学习领域术语) = 字段(数据库领域术语)
作者简介:
读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。