数据预处理(二)(附带实例)

一、主要目的:

数据预处理是整个数据分析过程中最为重要的环节,数据预处理主要包括数据清洗、数据抽取、数据交换和数据计算等。熟悉在Python开发环境中支持相应数据预处理环节的可用模块以及其中的方法,通过查阅相关说明文档掌握python中相应模块中的方法进行预处理的步骤。基于一定的样例数据,编写预处理过程的示例代码。

二、主要内容:

1.插入记录

Pandas里并没有直接指定索引的插入行的方法,所以要用户自行设置。

2.修改记录

修改记录(数据)是比较常用的,比例数据中有些需要整体替换,有些需要个别修改等情况。

(1)整体替换

(2)个别修改

①单值替换

②指定列单值替换

③多值替换

3.交换行或列

可以直接使用reindex方法交换数据中的两行或两列,也可以自行设置

4.排名索引
  1. sort_index:重新排序
  2. reindex:重新索引
  3. set_index:重置索引
  4. reset_index:索引还原

5.数据合并
(1)记录合并

记录合并是指两个结构相同的数据框合并成一个数据框,也就是在一个数据框中追加另一个数据框的数据记录。

(2)字段合并

字段合并是指将同一个数据框中的不同列进行合并,形成新的列。

(3)字段匹配

字段匹配是指不同结构的数据框(两个或两个以上的数据框),按照一定的条件进行匹配合并,即追加列。类似于excel中的VLOOKUP函数。

6.数据计算
(1)简单计算

简单计算是指通过对各字段进行加、减、乘、除等四则算术运算,得出的结果作为新的字段。

(2)数据标准化

数据标准化(归一化)处理是数据分析和挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响数据分析的结果。

数据标准化常用的方法为:

① min-max标准化(Min-Max Normalization)

又名离差标准化,是对原始数据的线性转化,公式如下:

X*=(x-min)/(max-min)

② Z-score标准化方法

Z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。这种方法给予原始数据的均值(Mean)和标准差(Standard Deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1 。

将数据按其属性(按列进行)减去其均值,并除以其标准差,得到的结果是,对于每个属性(每列)来说所有数据都聚集在0附近,标准差为1。

7.数据分组

数据分组是指根据数据分析对象的特征,按照一定的数据指标,把数据划分为不同的区间进行研究,以揭示其内在的联系和规律性。简单来说,就是新增一列,将原来的数据按照其性质归入新的类别中。其命令格式如下:

cut(series,bins,right=true,labels=Null)

学号

解析几何

2308024241

60

2308024242

55

学号

解析几何

类别

2308024241

60

及格

2308024242

55

不及格

8.日期处理
(1)日期转换

日期转换是指将字符型的日期格式转换为日期格式数据的过程。其命令格式如下: to_datetime(datastring,format)

(2)日期格式化

日期格式化是指将日期型的数据按照给定的格式转化为字符型的数据,其命令格式如下:

apply(lamda x: 处理逻辑)

datetime.strftime(x,format)

(3)日期抽取

日期抽取是指从日期格式里面抽取出需要的部分属性。其命令格式如下:

date_dt.dt.property

三、心得

在对数据进行预处理和分析时,常需要进行排序、重排、重置索引等操作以便于数据的解读和处理。在Python的Pandas库中,我们有sort_index, reindex, set_index, reset_index等方法来实现这些操作,它们提供了非常高效和便捷的方式来进行数据索引的处理。

此外,在处理时间序列数据时,日期的处理是一个重要的环节。包括日期的转换、格式化和抽取等操作都是必不可少的步骤。在Pandas库中,我们可以使用to_datetime, datetime.strftime, dt.property等方法来进行这些操作。对于一个具体的日期,我们可以抽取出年份、月份、日期、小时、分钟和秒等信息,这对于进一步的时间序列分析有着重要的作用。

通过本次学习,我对Pandas库中进行数据索引和日期处理的相关方法有了更深入的理解和掌握。在面对实际的数据处理任务时,我能够更熟练和灵活的使用这些工具,进一步提高数据处理的效率和质量。同时,我也认识到实践的重要性,只有通过实践,才能更好地理解和掌握这些方法,并将其应用到实际问题中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/278980.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[已解决】uniapp内置插件,editor富文本报错(附quill.min.js、image-resize.min.js文件)

在使用uni-app运行内置插件editor时,无法输入内容,控制台报错 原因:查看官网得知,需动态引入quill.min.js、image-resize.min.js文件 解决方法: 1.下载quill.min.js、image-resize.min.js到项目static/eidtor文件中 2…

提升英语学习效率,尽在Eudic欧路词典 for Mac

Eudic欧路词典 for Mac是一款专为英语学习者打造的强大工具。无论您是初学者还是高级学习者,这款词典都能满足您的需求。 首先,Eudic欧路词典 for Mac具备丰富的词库,涵盖了各个领域的单词和释义。您可以轻松查询并学习单词的意思、用法和例…

6个超好用的小众图片素材网站,高清、免费,值得收藏~

推荐几个超好用的图片素材网站,免费下载,还可以商用,建议收藏哦~ 1、菜鸟图库 https://www.sucai999.com/pic.html?vNTYwNDUx 我推荐过很多次的设计素材网站,除了设计类素材,还有很多自媒体可以用到的高清图片、背景…

Java 中 IO 流

目录 前言 1. 字节流(Byte Streams): 1.1 输入字节流: 1.2 输出字节流: 2. 字符流(Character Streams): 2.1 输入字符流: 2.2 输出字符流: 3. 转换流&…

java实现局域网内视频投屏播放(二)爬虫

代码链接 视频播放原理 大多视频网站使用的是m3u8,m3u8其实不是一个真正的视频文件,而是一个视频播放列表(playlist)。它是一种文本文件,里面记录了一系列的视频片段(segment)的网络地址。这些…

FLStudio20最新2024年中文汉化版

FLStudio21.0.2.3中文版完整下载是最好的音乐开发和制作软件也称为水果循环。它是最受欢迎的工作室,因为它包含了一个主要的听觉工作场所。最新FL有不同的功能,如它包含图形和音乐音序器,帮助您使完美的配乐在一个美妙的方式。此程序可用于Mi…

深入理解人工智能中的图神经网络:原理、应用与未来展望

导言: 图神经网络(Graph Neural Networks, GNNs)作为人工智能领域的一项前沿技术,在社交网络分析、推荐系统、生物信息学等多个领域展现出卓越的性能。本文将深入剖析图神经网络的原理、当前应用场景以及未来可能的发展方向。 1.…

PDI/Kettle-9.2.0.0-R(对应jdk1.8)源码编译问题记录及源码结构简介

目录 📚第一章 前言📗背景📗目的📗总体方向 📚第二章 代码结构初识基本结构📗代码模块详情 ⁉️问题记录❓问题一:代码分支哪些是发布版本❗答:后缀-R的版本 ❓问题二:50…

ISSUE的基本概念

ISSUE:将符合一定条件的指令从发射队列(IssueQueue)中选出来,并送到FU中执行的过程; ISSUE QUEUE也称之为reservation station, 其按照一定的规则,选择那些源操作数都已经准备好的指令,将其送到FU中执行,这个过程称为…

基于ssm旅游景点管理系统设计论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本旅游景点管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息…

拷贝的艺术:深拷贝与浅拷贝的区别与应用(下)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

基于ssm培训学校教学管理平台论文

摘 要 社会的进步,教育行业发展迅速,人们对教育越来越重视,在当今网络普及的情况下,教学管理模式也开始逐渐网络化,学校开始网络教学管理模式。 本文研究的培训学校教学管理平台基于SSM框架,采用Java技术和…