【Python数据分析系列】一文带你认识pd.DataFrame的组成(案例)

这是我的第233篇原创文章。

一、引言

DataFrame是Pandas库中的一个重要数据结构,它类似于电子表格数据库表。DataFrame是一个二维的、大小可变的表格数据结构,其中数据以行和列的形式排列。每一列可以是不同的数据类型(整数、浮点数、字符串等),类似于SQL表或Excel表。

二、组成

示例

import pandas as pddata = pd.read_csv('Dataset.csv')
df = pd.DataFrame(data)
print(df.head())

图片

一个dataframe由索引(index)、字段(columns)、数值(values)三部分组成。

2.1 index

index = df.index
print(index)
print(type(index))
print(list(index))

图片

索引(Index):

  1. DataFrame的行标签,用于唯一标识每一行。
  2. 可以是整数、字符串或其他类型的数据。
  3. 索引可以是单层的,也可以是多层的(层级索引)。
  4. df.index返回的是一个RangeIndex对象,本质是一个一维列表,可以转化为列表对象将其打印出来。

2.2 columns

columns = df.columns
print(columns)
print(type(columns))
print(list(columns))

图片

字段(Columns):

  1. DataFrame的列标签,用于唯一标识每一列。
  2. 每一列可以包含不同类型的数据,如整数、浮点数、字符串等。
  3. 列名可以是字符串类型。
  4. df.columns返回的是一个Index对象,本质是一个一维列表,可以转化为列表对象将其打印出来。

2.3 values

values = df.values
print(values)
print(type(values))

图片

数值(Values):

  1. 实际存储在DataFrame中的数据,以二维数组(通常是NumPy数组)的形式表示。
  2. 每一行代表一个样本(观察值),每一列代表一个特征(变量)。
  3. df.values返回的是一个二维数组对象。

三、表格数据的行和列

- 行(rows)  = 样本(统计学、机器学习领域术语) = 元组/记录(数据库领域术语)
- 列(columns)  = 特征(标签)/变量(统计学、机器学习领域术语) = 字段(数据库领域术语)

作者简介:

读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/520968.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024选哪个牌子的大路灯好用又实惠?口碑最好的五款大路灯品牌型号推荐!

近年来,随着科技时代的迅速发展,大路灯作为一种能够帮助改善光线环境的家电备受追捧,大家都会给自己和家里孩子备上一款大路灯,在读写、工作的时候开大路灯能够充分明亮的照明。然而,市场上存在许多不专业的产品&#…

Bytebase 签约合思,覆盖多云数据库变更发布,数据访问控制,安全治理的全生命周期,确保符合合规审计要求

在数字化快速发展时代,有效的规范数据库管理对企业安全运营至关重要。近日,数据库 DevOps 团队协同管理工具 Bytebase 签约费控领域领军企业合思,旨在全面优化数据库操作管理,收口全体员工的变更和查询操作,以提高整体…

【Git】解决上传代码到github不增加代码提交次数问题

问题 在我们向github远程仓库中提交代码时,有时候会出现提交了代码却没有显示代码的提交记录问题。这是因为你远程github的用户信息和你本地仓库用户信息不一致造成的。 解决 查看本地仓库用户信息 git config --global -l查看哪一项用户信息与你github上不同。…

如何转行成为产品经理?

转行NPDP也是很合适的一条发展路径,之后从事新产品开发相关工作~ 一、什么是NPDP? NPDP 是产品经理国际资格认证,美国产品开发与管理协会(PDMA)发起的,是目前国际公认的唯一的新产品开发专业认证&#xff…

[c++] c++ 中的顺序(构造,析构,初始化列表,继承)

对象构造的时候,对象成员变量的初始化顺序是什么样的 ? 派生类构造的时候,先构造基类还是先构造派生类 ? 构造函数中的初始化列表,初始化的顺序是列表的顺序吗 ? 析构的时候,析构的顺序是什么…

修改Android打包apk的名字和目录

app打包生成apk后通常需要进行备份,但是要区分好哪个apk是什么版本的、什么时候打包的,以方便以后区分使用。 最开始的想法是把版本号、创建时间这些加在apk文件名上即可,但是公司要求apk使用一个固定的名称,那我怎么保存版本号信…

利用tree命令自动保存文件层级结构

tree命令的使用 为了将上图左侧的文件目录,生成上图右侧中的文件夹结构列表,保存在txt中,使用了如下cmd命令: C:\armadillo-12.8.0>tree .>list.txt以上tree命令分为3部分: tree 命令. 在当前目录>list.tx…

linux下查看centos版本号

cat /etc/centos-release cat /etc/redhat-release

Docker系列之docker与docker-compose离线安装

docker离线安装 一、离线安装包二、安装命令三、配置四、docker-compose 一、离线安装包 上传离线安装包至/root/目录下,docker离线安装包下载链接。 二、安装命令 cd /root mkdir k8sOfflineSetup tar -xzvf k8sOfflineSetup-2020-02-20.tar.gz -C k8sOfflineSe…

软考69-上午题-【面向对象技术2-UML】-关系

一、关系 UML中有4种关系: 依赖;关联;泛化;实现。 1-1、依赖 行为(参数),参数就是被依赖的事物,即:独立事物。 当独立事物发生变化时,依赖事务行为的语义也…

散列表、散列函数、散列冲突、哈希算法

文章目录 哈希表理论基础Word文档中的单词拼写检查功能如何实现 散列表散列思想散列函数散列冲突开放寻址法(open addressing)链表法(chaining) 解决开头的问题 如何打造一个工业级水平的散列表如何设计散列函数装载因子过大怎么办?如何避免低效扩容如何选择冲突解决方法如何设…

phpstorm console xdebug

1.所有配置跟浏览器http请求一样 2.记得Current File 必须是controller文件 注意:如果没有出发断点,则echo phpinfo(),查看remote_port 和phpstorm 配置是否对上。