Python机器学习基础(三)---数据预处理

一.数据预处理作用

数据预处理会将选定的数据转换为我们可以使用的形式或可以提供给ML算法的形式,以使其符合机器学习算法的期望。

二.数据处理的常用方法

1.规范化

数据规范化是使属性数据按比例缩放,这样就将原来的数值映射到一个新的特定区域中,包括归一化,标准化等。

1.1.归一化

1.1.1:概念

把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

1.1.2:MinMaxScaler 归一

将数据缩放到指定的范围内。它通过对数据进行线性变换,将数据映射到指定的最小值和最大值之间。

在这里插入图片描述

  • 代码:
path=r"D:\DevelopWorkSpace\vsCodeWorkSpaces\python\pythonDemo\数据集\kindey stone urine analysis.csv"
names =["比重","氢离子的负对数","渗透压","电导率","尿素浓度","钙浓度","结果"]
data=read_csv(path,names=names)
print(data)#-------数据截取--------------------
# data1=data.iloc[:,0:6]
# print("data1-------------------------------")
# print(data1)
#gravity,ph,osmo,cond,urea,calc,target
data2=data.loc[:,["比重","氢离子的负对数","渗透压","电导率","尿素浓度","钙浓度","结果"]]
print("data2-------------------------------")
print(data2[0:10])
array = data2.values#"比重","氢离子的负对数","氢离子的负对数","电导率","尿素浓度","钙浓度"
#-------数据归一化
#通过对原始数据进行变换把数据映射到(默认为[0,1])之间
data_scaler = preprocessing.MinMaxScaler(feature_range=(0,1))
data_rescaled = data_scaler.fit_transform(array)
set_printoptions(precision=1)
print ("数据归一化:\n", data_rescaled[0:10])
  • 数据集(10行):
data2-------------------------------比重  氢离子的负对数   渗透压   电导率  尿素浓度   钙浓度  结果
0  1.021     4.91   725  14.0   443  2.45   0
1  1.017     5.74   577  20.0   296  4.49   0
2  1.008     7.20   321  14.9   101  2.36   0
3  1.011     5.51   408  12.6   224  2.15   0
4  1.005     6.52   187   7.5    91  1.16   0
5  1.020     5.27   668  25.3   252  3.34   0
6  1.012     5.62   461  17.4   195  1.40   0
7  1.029     5.67  1107  35.9   550  8.48   0
8  1.015     5.41   543  21.9   170  1.16   0
9  1.021     6.13   779  25.7   382  2.21   0
  • 结果:
数据归一化:[[0.5 0.  0.5 0.3 0.7 0.2 0. ][0.3 0.3 0.4 0.5 0.5 0.3 0. ][0.1 0.8 0.1 0.3 0.1 0.2 0. ][0.2 0.2 0.2 0.2 0.4 0.1 0. ][0.  0.6 0.  0.1 0.1 0.1 0. ][0.4 0.2 0.5 0.6 0.4 0.2 0. ][0.2 0.3 0.3 0.4 0.3 0.1 0. ][0.7 0.3 0.9 0.9 0.9 0.6 0. ][0.3 0.2 0.3 0.5 0.3 0.1 0. ][0.5 0.4 0.6 0.6 0.6 0.1 0. ]]
1.1.3 :L1、L2范数归一化
  • 描述:

        L1范数:每个向量绝对值和

        L2范数:每个向量平方和开根 

                        

        L1范数归一:向量值/每个向量绝对值和

        L2范数归一:向量值/每个向量平方和开根 

  • 代码:

               

#---L1归一
Data_normalizer_l1 = preprocessing.Normalizer(norm='l1').fit(array)
Data_normalized_l1 = Data_normalizer_l1.transform(array)
set_printoptions(precision=2)
print ("L1归一", Data_normalized_l1 [0:3])
#---L2归一
Data_normalizer_l2 = preprocessing.Normalizer(norm='l2').fit(array)
Data_normalized_l2 = Data_normalizer_l2.transform(array)
set_printoptions(precision=3)
print ("L2归一", Data_normalized_l2 [0:3])
  • 数据集: 
data2-------------------------------比重  氢离子的负对数   渗透压   电导率  尿素浓度   钙浓度  结果
0  1.021     4.91   725  14.0   443  2.45   0
1  1.017     5.74   577  20.0   296  4.49   0
2  1.008     7.20   321  14.9   101  2.36   0
3  1.011     5.51   408  12.6   224  2.15   0
4  1.005     6.52   187   7.5    91  1.16   0
5  1.020     5.27   668  25.3   252  3.34   0
6  1.012     5.62   461  17.4   195  1.40   0
7  1.029     5.67  1107  35.9   550  8.48   0
8  1.015     5.41   543  21.9   170  1.16   0
9  1.021     6.13   779  25.7   382  2.21   0
  • L1结果:(每行绝对值相加=1)
[[8.58e-04 4.12e-03 6.09e-01 1.18e-02 3.72e-01 2.06e-03 0.00e+00][1.12e-03 6.35e-03 6.38e-01 2.21e-02 3.27e-01 4.97e-03 0.00e+00][2.25e-03 1.61e-02 7.17e-01 3.33e-02 2.26e-01 5.27e-03 0.00e+00][1.55e-03 8.43e-03 6.25e-01 1.93e-02 3.43e-01 3.29e-03 0.00e+00][3.42e-03 2.22e-02 6.36e-01 2.55e-02 3.09e-01 3.94e-03 0.00e+00][1.07e-03 5.52e-03 7.00e-01 2.65e-02 2.64e-01 3.50e-03 0.00e+00][1.49e-03 8.25e-03 6.77e-01 2.55e-02 2.86e-01 2.05e-03 0.00e+00][6.02e-04 3.32e-03 6.48e-01 2.10e-02 3.22e-01 4.96e-03 0.00e+00][1.37e-03 7.29e-03 7.31e-01 2.95e-02 2.29e-01 1.56e-03 0.00e+00][8.54e-04 5.13e-03 6.51e-01 2.15e-02 3.19e-01 1.85e-03 0.00e+00]]
  • L2结果:(每行平方和相加=1)
L2归一
[[1.202e-03 5.778e-03 8.532e-01 1.648e-02 5.213e-01 2.883e-03 0.000e+00][1.567e-03 8.846e-03 8.893e-01 3.082e-02 4.562e-01 6.920e-03 0.000e+00][2.992e-03 2.137e-02 9.527e-01 4.422e-02 2.998e-01 7.004e-03 0.000e+00][2.171e-03 1.183e-02 8.762e-01 2.706e-02 4.810e-01 4.617e-03 0.000e+00][4.827e-03 3.131e-02 8.981e-01 3.602e-02 4.371e-01 5.571e-03 0.000e+00][1.428e-03 7.377e-03 9.350e-01 3.541e-02 3.527e-01 4.675e-03 0.000e+00][2.020e-03 1.122e-02 9.204e-01 3.474e-02 3.893e-01 2.795e-03 0.000e+00][8.321e-04 4.585e-03 8.951e-01 2.903e-02 4.447e-01 6.857e-03 0.000e+00][1.782e-03 9.501e-03 9.536e-01 3.846e-02 2.985e-01 2.037e-03 0.000e+00][1.176e-03 7.062e-03 8.974e-01 2.961e-02 4.401e-01 2.546e-03 0.000e+00]]

1.2.标准化

sklearn 库的 preprocessing的StandardScaler(z-score 标准化

1.2.1.概念:

标准化需要计算特征的均值和标准差,公式表达为:

标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如[0, 1]等。

1.2.2.示例:
#标准化
data_scaler = preprocessing.StandardScaler().fit(array)
data_rescaled = data_scaler.transform(array)
set_printoptions(precision=2)
print ("标准化:\n", data_rescaled [0:10])
1.2.3.结果:
标准化:[[ 0.4  -1.55  0.48 -0.86  1.35 -0.52 -0.87][-0.15 -0.4  -0.15 -0.1   0.23  0.11 -0.87][-1.41  1.63 -1.24 -0.75 -1.27 -0.55 -0.87][-0.99 -0.72 -0.87 -1.04 -0.33 -0.61 -0.87][-1.82  0.68 -1.8  -1.69 -1.34 -0.92 -0.87][ 0.26 -1.05  0.23  0.57 -0.11 -0.25 -0.87][-0.85 -0.57 -0.64 -0.43 -0.55 -0.85 -0.87][ 1.51 -0.5   2.09  1.91  2.17  1.34 -0.87][-0.43 -0.86 -0.3   0.14 -0.74 -0.92 -0.87][ 0.4   0.14  0.7   0.62  0.89 -0.6  -0.87]]

2.  2值化

2.1.概念:

使数据二进制化。我们可以使用二进制阈值来使数据二进制。高于该阈值的值将转换为1,低于该阈值的值将转换为0。

例如,如果我们选择阈值= 0.5,则其上方的数据集值将变为1,而低于此值的数据集值将变为0。这就是为什么我们可以将其称为 二进制化数据或 阈值数据。当我们在数据集中有几率并希望将其转换为清晰的值时,此技术很有用。

2.2.示例:

#2值化
binarizer = preprocessing.Binarizer(threshold=50).fit(array)
Data_binarized = binarizer.transform(array)
print ("2值化:\n", Data_binarized [0:10])

2.3.结果:

​
2值化:[[0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.][0. 0. 1. 0. 1. 0. 0.]]​

3.标签编码:

PS1:大多数sklearn函数都希望带有数字标签而不是单词标签的数据。因此,我们需要将此类标签转换为数字标签。此过程称为标签编码。

PS2:因为回归和机器学习都是基于数学函数方法的,所以当我们要分析的数据集中出现了类别数据(categorical data),此时的数据是不理想的,因为我们不能用数学的方法处理它们。例如,在处理男和女两个性别数据时,我们用0和1将其代替,再进行分析。由于这种情况的出现,我们需要可以将文字数字化的现成方法。

3.1.LabelEncoder :

3.1.1.概念:
  • LabelEncoder 将一列文本数据转化成数值。
  • 例如,[red, blue, red, yellow] = [0,2,0,1]
3.1.2.示例:
#标签编码
input_labels = ['猫','狗','猫','兔子','老虎','鸭子','大鹅']
encoder = preprocessing.LabelEncoder()labelsList=encoder.fit_transform(input_labels)
print("标签:\n",input_labels)
print("编码后:\n",labelsList)test_labels=['猫','兔子','老虎']
testLabelList=encoder.transform(test_labels)
print("测试数据:\n",test_labels)
print("验证编码:\n",testLabelList)
test_labels2=[0,3,5]
testLabelList2=encoder.inverse_transform(test_labels2)
print("测试数据:\n",test_labels2)
print("验证解码:\n",testLabelList2)
3.1.3.结果:
标签:['猫', '狗', '猫', '兔子', '老虎', '鸭子', '大鹅']
编码后:[3 2 3 0 4 5 1]
测试数据:['猫', '兔子', '老虎']
验证编码:[3 0 4]
测试数据:[0, 3, 5]
验证解码:['兔子' '猫' '鸭子']

3.2.OneHotEncoder:

3.2.1.概念:
  • OneHotEncoder 将一列文本数据转化成一列或多列只有0和1的数据。
  • 例如,[red, blue, red, yellow] = [1,2,1,3] 会被转化成3列用0和1表示的数据列
  • 相对于转换成0、1、2、3 ,数值本身也有大小,所以在标签值大小影响后续计算时,OneHotEncoder有优势
3.2.2.示例:
  • #OneHotEncoder-----sklearn
#OneHotEncoder
input_labels = ['猫','狗','猫','兔子','老虎','鸭子','大鹅']
#input_labels = ['red','green','blue','black']
encoder2 = preprocessing.OneHotEncoder()
import numpy as np
arr=(np.array(input_labels)).reshape(-1, 1)
# PS:不能直接编码数组 需要转换
# OneHotLabel=encoder2.fit_transform(input_labels)
# 报错:
# Reshape your data either using array.reshape(-1, 1) 
# if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
print(arr)
OneHotLabel=encoder2.fit_transform(arr).toarray()
print(OneHotLabel)
  • #OneHotEncoder-----pandas

#OneHotEncoder-----pandas
import pandas as pd
# 创建一个包含标签的数据集
input_labels = ['猫','狗','猫','兔子','老虎','鸭子','大鹅']
# 对 'color' 列进行独热编码
one_hot_encoded = pd.get_dummies(input_labels)
print(one_hot_encoded)
3.2.3.结果:
  • #OneHotEncoder-----sklearn
原数组:['猫', '狗', '猫', '兔子', '老虎', '鸭子', '大鹅']
转换后数组:[['猫']['狗']['猫']['兔子']['老虎']['鸭子']['大鹅']]
编码后:[[0. 0. 0. 1. 0. 0.][0. 0. 1. 0. 0. 0.][0. 0. 0. 1. 0. 0.][1. 0. 0. 0. 0. 0.][0. 0. 0. 0. 1. 0.][0. 0. 0. 0. 0. 1.][0. 1. 0. 0. 0. 0.]]
  • #OneHotEncoder-----pandas
   兔子  大鹅  狗  猫  老虎  鸭子
0   0   0  0  1   0   0
1   0   0  1  0   0   0
2   0   0  0  1   0   0
3   1   0  0  0   0   0
4   0   0  0  0   1   0
5   0   0  0  0   0   1
6   0   1  0  0   0   0

3.3:OrdinalEncoder

3.3.1:概念:

将分类特征转化为整数数组,它的输入应该是整数或字符串的类数组,也可以理解为矩阵,每一列表示一个特征,每一个特征中的数字或者是字符串表示一类特征,也就是分类(离散)特征所接受的值。特征按顺序转换为有序整数。结果就是每个特征对应一个整数列,取值范围0到n_categories -1。

3.3.2:示例:
#OrdinalEncoder-----sklearn
input_arrays =  [['猫',2],['狗',8],['猫',7],['兔子',6],['老虎',5],['鸭子',4],['大鹅',3]]encoder3 = preprocessing.OrdinalEncoder()print("原数组:\n",input_arrays)
OrdinalArr=encoder3.fit_transform(input_arrays)
print("编码后:\n",OrdinalArr)
testArr =[[2,4]]
print("测试数组:\n",testArr)
print("解码后:\n",encoder3.inverse_transform(testArr))

3.3.3:结果:
原数组:[['猫', 2], ['狗', 8], ['猫', 7], ['兔子', 6], ['老虎', 5], ['鸭子', 4], ['大鹅', 3]]
编码后:[[3. 0.][2. 6.][3. 5.][0. 4.][4. 3.][5. 2.][1. 1.]]
测试数组:[[2, 4]]
解码后:[['狗' 6]]

3.4.LabelEncoder和OrdinalEncoder区别

LabelEncoder和OrdinalEncoder类似,都可以将分类型变量转化成数值型索引变量,区别在于OrdinaEncoder可以直接处理shape为[m,n]的数组或类数组对象,而LabelEncoder只能处理[m,]的一维对象。

既:

LabelEncoder用来编码结果Target为字符标签情况

OrdinalEncoder用来编码矩阵特征为字符串,非数字的情况

三.参考

 PS:关于标准化 归一化概念混乱的看这篇,都是因为中英文翻译导致的概念混乱。

http://t.csdnimg.cn/BizzI

 LabelEncoder 和OneHotEncoder概念来源:

数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/176674.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pandas教程(非常详细)(第六部分)

接着Pandas教程(非常详细)(第五部分),继续讲述。 三十一、Pandas Excel读写操作详解 Excel 是由微软公司开发的办公软件之一,它在日常工作中得到了广泛的应用。在数据量较少的情况下,Excel 对…

UE4动作游戏实例RPG Action解析三:实现效果,三连击Combo,射线检测,显示血条,火球术

一、三连Combo 实现武器三连击,要求: 1.下一段Combo可以随机选择, 2.在一定的时机才能再次检测输入 3. 等当前片段播放完才播放下一片段 1.1、蒙太奇设置 通过右键-新建蒙太奇片段,在蒙太奇里创建三个片段,并且移除相关连接,这样默认只会播放第一个片段 不同片段播…

SAP删除自建、系统表数据的方法

1、输入前台事务码 SE16N 进入 常规表显示 2、输入自建表名称后,回车展示字段 在事务栏中输入 /H 启用编辑 敲击回车 (消息显示调试被激活) 然后点击执行 3、在右下角栏目中输入 GD-SAPEDIT 和 GD-EDIT 点击 小笔 启用编辑,将两…

C 语言指针

C 语言指针 在本教程中,您将学习指针。什么是指针,如何使用它们以及在示例的帮助下使用它们时可能遇到的常见错误。 指针是 C和C 编程的强大功能。在学习指针之前,让我们学习一下C语言编程中的地址。 C 语言地址 如果程序中有变量var&am…

debian 修改镜像源为阿里云【详细步骤】

文章目录 修改步骤第 1 步:安装 vim 软件第 2 步:备份源第 3 步:修改为阿里云镜像参考👉 背景:在 Docker 中安装了 jenkins 容器。查看系统,发现是 debian 11(bullseye)。 👉 目标:修改 debian bullseye 的镜像为阿里云镜像,加速软件安装。 修改步骤 第 1 步:…

dgl 的cuda 版本 环境配置(dgl cuda 版本库无法使用问题解决)

1. 如果你同时有dgl dglcu-XX.XX 那么,应该只会运行dgl (DGL的CPU版本),因此,你需要把dgl(CPU)版本给卸载了 但是我只卸载CPU版本还不够,我GPU 版本的dglcu依旧不好使,因此吧GPU版本的也得卸载…

【大语言模型】Docker部署清华大学ChatGLM3教程

官方地址:https://github.com/THUDM/ChatGLM3 1 将代码保存至本地 方法1: git clone https://github.com/THUDM/ChatGLM3 方法2: https://github.com/THUDM/ChatGLM3/archive/refs/heads/main.zip 2 创建Docker文件 注:请先…

嵌入式系统中,输入网址之后,发生了什么?

让我们一步一步地来看这个过程。 步骤1: 用户在浏览器中输入一个URL(比如www.bytebytego.com),然后按下回车键。首先,我们需要将这个URL转换成一个IP地址。通常,这个映射关系会被存储在缓存中&#xff0c…

飞天使-django概念之urls

urls 容易搞混的概念,域名,主机名,路由 网站模块多主机应用 不同模块解析不同的服务器ip地址 网页模块多路径应用 urlpatterns [ path(‘admin/’, admin.site.urls), path(‘’, app01views.index), path(‘movie/’, app01views.movi…

多机器人群体的任务状态与机器人状态同步设计思路

背景技术 近年来,随着科学技术的发展需要,机器人技术不断进步。面临任务的日益复杂化,单机器人在很多环境下已经无法满足生产要求,于是国内外科研工作者对多机器人技术投入了大量关注,提出了利用多机器人协作来代替单机…

智慧化城市内涝的预警,万宾科技内涝积水监测仪

随着城市化进程的加速,伴随的是城市内涝问题日益凸显。频繁的暴雨和积水给市民的生活带来了诸多不便,也给城市的基础设施带来了巨大压力。如何解决这一问题,成为智慧城市建设的重要课题和政府管理的工作主题,只要内涝问题得到缓解…

linux之用户管理

一、是什么 Linux是一个多用户的系统,允许使用者在系统上通过规划不同类型、不同层级的用户,并公平地分配系统资源与工作环境 而与 Windows 系统最大的不同, Linux 允许不同的用户同时登录主机,同时使用主机的资源 既然是多用户…