Pandas学习笔记

Pandas数据分析处理库

数据预处理

导入一份泰坦尼克号乘客数据

image-20230731175352495

image-20230731175057209

df.head()展示读取数据,默认读取前5行
df.tail()默认读取后5行
df.head(10)读取前10行

DataFrame结构

Pandas工具包的基础结构,二维矩阵结构,行表示数据样本,列表示特征指标。基本上读取数据返回的都是DataFrame结构。

image-20230731180507006

DataFrame能调用的属性很多,具体查看API文档。

举例几种:

image-20230731180858496

image-20230731180954333

数据索引

image-20230731181349919
image-20230731182046414
image-20230731182247793
image-20230731182829820

Pandas中bool类型同样可以当作索引:

image-20230731183235676

image-20230731183248063

创建DataFrame

创建一个字典结构,其中key表示特征名字,value表示各个样本的实际值,通过pf.DataFrame()函数来创建。

image-20230731183725008

Series操作

前面的操作对象都是DataFrame,读取的数据都是二维的,

如果在数据中单独取一列,就是Series格式,DataFrame是由Series组合起来得到的。

创建Series:

image-20230731200731106

image-20230731201318895

数据分析

image-20230731201615188

image-20230731202848735

image-20230731203229440

image-20230731203808645

机器学习中比拼的就是数据特征够不够好,将特征中连续值离散化是常用套路。

pivot数据透视表

image-20230731205116183

groupby操作

image-20230731210359413

image-20230731210536508

常用函数操作

Merge操作

image-20230731211440874

image-20230731211726318

如key列值不同

image-20230731212745851

image-20230731212908658

image-20230731212939832

data.drop_duplicates()去掉重复数据
data.drop_duplicates(subset='k1')只考虑某一列重复的情况,其他全部舍弃
数据处理通常会遇到缺失值,通过isnull()函数判断缺失情况,True表示缺失
df.isnull().any()判断某一列是否有缺失

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/80674.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决nginx的负载均衡下上传webshell的问题

目录 环境 问题 访问的ip会变动 执行命令的服务器未知 上传大文件损坏 深入内网 解决方案 环境 ps :现在已经拿下服务器了,要解决的是负载均衡问题, 以下是docker环境: 链接: https://pan.baidu.com/s/1cjMfyFbb50NuUtk6JNfXNQ?pwd1aqw 提…

密码学学习笔记(二十一):SHA-256与HMAC、NMAC、KMAC

SHA-256 SHA-2是广泛应用的哈希函数,并且有不同的版本,这篇博客主要介绍SHA-256。 SHA-256算法满足了哈希函数的三个安全属性: 抗第一原像性 - 无法根据哈希函数的输出恢复其对应的输入。抗第二原像性 - 给定一个输入和它的哈希值&#xf…

回归预测 | MATLAB实现DBN-ELM深度置信网络结合极限学习机多输入单输出回归预测

回归预测 | MATLAB实现DBN-ELM深度置信网络结合极限学习机多输入单输出回归预测 目录 回归预测 | MATLAB实现DBN-ELM深度置信网络结合极限学习机多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现DBN-ELM深度置信网络结合极限学习…

如何深入理解 Node.js 中的流(Streams)

Node.js是一个强大的允许开发人员构建可扩展和高效的应用程序。Node.js的一个关键特性是其内置对流的支持。流是Node.js中的一个基本概念,它能够实现高效的数据处理,特别是在处理大量信息或实时处理数据时。 在本文中,我们将探讨Node.js中的流…

计算机竞赛 基于GRU的 电影评论情感分析 - python 深度学习 情感分类

文章目录 1 前言1.1 项目介绍 2 情感分类介绍3 数据集4 实现4.1 数据预处理4.2 构建网络4.3 训练模型4.4 模型评估4.5 模型预测 5 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于GRU的 电影评论情感分析 该项目较为新颖,适合作为竞…

【Cortex-M3权威指南】学习笔记1 - 概览与基础

介绍 三种主流 Cortex 款式 款式 A:设计用于高性能的“开放应用平台” 款式 R:用于高端的嵌入式系统,尤其是那些带有实时要求的 款式 M:用于深度嵌入的,单片机风格的系统中 指令集发展 ARM 处理器一直支持两种形式上…

【Unity自制手册】游戏基础API大全

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…

Eduma主题 - 线上教育WordPress主题/网站

Eduma主题 – 线上教育WordPress主题是为教育网站、LMS、培训中心、课程中心、学院、大学、学校、幼儿园而制作的。基于我们使用以前的主题eLearning WP构建WordPress LMS的经验,Education WP是下一代,也是围绕WordPress最好的教育主题之一,它…

清华源的链接太多老崩溃,我把它拷过来,需要什么点什么

建议按照字母分个类可能会好点 把链接这里改为 哈哈就不卡了,浏览器也不崩溃了还能很快就链接成功 Links for pandas这是链接 这个小技巧教给大家请给我点个赞

详细手机代理IP配置

嗨,亲爱的朋友们!作为一家代理产品供应商,我知道有很多小伙伴在使用手机进行网络爬虫和数据采集时,常常会遇到一些IP限制的问题。别担心!今天我要给大家分享一下手机IP代理的设置方法,让你们轻松应对这些限…

【LUBAN】【功能验证】至简投屏功能之Android有线连接方式测试

1、概述 至简投屏功能之Android有线连接方式支持至简自带应用至加的投屏功能和谷歌官方的Android auto功能。 支持的功能范围列举如下: 1、屏幕投屏(支持自动旋转屏)2、音视频播放(抖音、百度地图等)3、车机反控手机…

Spring 为什么使用三级缓存解决循环依赖

文章目录 前言1. 什么是循环依赖1.1 互相依赖1.2 递归依赖 2. Sping中循环依赖有什么问题?3. 什么是三级缓存4. Spring 可以解决哪些情况的循环依赖? 二级缓存作用——普通循环依赖实操环节1. 实例化类A对象2. 实例化类B对象3. B对象完成创建4.继续创建A…