机器学习中表格数据预处理

目录

缺失值处理

在dataframe中进行填补

使用模型填补缺失值(随机森林)

异常值

数据无量纲化

中心化

  数据归一化

  数据标准化

缩放处理

转换数据类型

文本—>数值preprocessing.LabelEncoder:标签专用,能够将分类转换为分类数值

preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值

preprocessing.OneHotEncoder:独热编码,创建哑变量


缺失值处理

        一般有平均值(mean),中位数(median),众数(mode)

在dataframe中进行填补

# 用中位数进行填补

data.loc[:,"age"] = data.loc[:,"age"].fillna(data.loc[:."age"].median())

# 用众数进行填补

data.fillna(df.mode().iloc[0]) # df.mode(),计算众数,取每列第一个众数(如果有多个众数)

# 删除缺失值所在行

data.dropna(axis=0,inplace=True) 

# 使用线性插值方法填补缺失值(连续值)

data = data.interpolate(method='linear', axis=0)

# 删除重复的行

data.drop_duplicates(keep="first",inplace=True) 

inplace=True表示在原数据上进行修改,而不是创造一个副本 

axis=0,删除有缺失值的行。axis=1,删除有缺失值的列。

使用模型填补缺失值(随机森林)

from sklearn.ensemble import RandomForestRegressordata2 = data.copy()
for i in['col1','col2']:#构建我们的新特征矩阵和新标签df = data2y= df[i]x= df.iloc[:,df.columns != i]#在新特征矩阵中,对含有缺失值的列,进行的填补                                x0=SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(x)#找出我们的训练集和测试集Ytrain = y[y.notnull()]Ytest = y[y.isnu1l()]Xtrain = x0[Ytrain.index,:]Xtest =x0[Ytest.index,:]#用随机森林回归来填补缺失值if(Xtest.sum()!=0):rfc = RandomForestRegressor(nestimators=100)rfc = rfc.fit(Xtrain,ytrain)predict =rfc.predict(Xtest)#将填补好的特征返回到我们的原始的特征矩阵中data.loc[data[i].isnull(),i] = predict

 

异常值

删除异常值

        根据箱线图的标准确定了异常值的边界:

# 计算每列数据的箱线图边界
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR# 删除超出边界的行
df = df[(df >= lower_bound) & (df <= upper_bound)].dropna()

         使用Z-score,定义了异常值的阈值为均值的两倍标准差:

# 计算每列的均值和标准差
mean = df.mean()
std = df.std()# 定义异常值的阈值(均值的两倍标准差)
threshold = 2# 使用条件过滤删除异常值
df = df[(np.abs((df - mean)/std) < threshold).all(axis=1)] #沿着行的方向进行操作

 

数据无量纲化

中心化

  数据归一化

        preprocessing.MinMaxScaler

        当数据(x)按照最小值中心化后,再按极差(最大值 - 最小值)缩放,数据移动了最小值个单位,并且会被收敛到[0,1]之间,而这个过程,就叫做数据归一化(Normalization,又称Min-Max Scaling)。注意,Normalization是归一化,不是正则化,真正的正则化是regularization,不是数据预处理的一种手段。归一化之后的数据服从正态分布,公式如下:

x^*=\frac{x-min(x)}{max(x)-min(x)}

from sklearn.preprocessing.MinMaxScalerdata = pd.DataFrame(data)
scaler = MinMaxScaler()
data_1 = scaler.fit_transform(data)# 使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中
scaler_! = MinMaxScaler(feature_range=[5,10])
data_1 = scaler_1.fit_transform(data)# 使用numpy
X_nor = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
X_nor

        如果要分训练集和测试集,则对训练集进行fit,即求 min(x) 和 max(x) ,对训练接和测试集进行transform,即二者都使用训练集的  min(x) 和 max(x) 进行归一化。

  数据标准化

        当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的正态分布(即标准正态分布),而这个过程,就叫做数据标准化(Standardization,又称Z-score normalization),公式如下:

x^*=\frac{x-\mu }{\sigma }

from sklearn.preprocessing import StandarScalerscaler = StandarScaler()
data_1 = scaler.fit_transform(data)scaler.mean_
scaler.var_

 StandardScaler和MinMaxScaler选哪个?

        看情况。大多数机器学习算法中,会选择StandardScaler来进行特征缩放,因为MinMaxScaler对异常值非常敏感。在PCA,聚类,逻辑回归,支持向量机,神经网络这些算法中,StandardScaler往往是最好的选择。MinMaxScaler在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛,比如数字图像处理中量化像素强度时,都会使用MinMaxScaler将数据压缩于[0,1]区间之中。

        建议先试试看StandardScaler,效果不好换MinMaxScaler。

缩放处理

        缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。

转换数据类型

文本—>数值
preprocessing.LabelEncoder:标签专用,能够将分类转换为分类数值

from sklearn.preprocessing import LabelEncodery = data.iloc[:,-1]
le = LabelEncoder()
le.fit(y)
label = le.transform(y) 
data.iloc[:,-1] = label

 

preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值

from sklearn.preprocessing import OrdinalEncoderdata_.iloc[:,1:-1]= ordinalEncoder().fit_transform(data_.iloc[:,1:-1])

类别OrdinalEncoder可以用来处理有序变量,但对于名义变量,我们只有使用哑变量的方式来处理,才能够尽量向算法传达最准确的信息:

 这样的变化,让算法能够彻底领悟,原来三个取值是没有可计算性质的,是“有你就没有我”的不等概念。

因此我们需要使用独热编码,将特征转换为哑变量

preprocessing.OneHotEncoder:独热编码,创建哑变量

from sklearn.preprocessing import OneHotEncoderresult = OneHotEncoder(categories='auto').fit_transform(X).toarray()#axis=1,表示跨行进行合并,也就是将量表左右相连,如果是axis=0,就是将量表上下相连
newdata = pd.concat([data,pd.DataFrame(result)],axis=1)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/696351.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年3月 青少年等级考试机器人理论真题四级

202403 青少年等级考试机器人理论真题四级 第 1 题 Arduino UNO/Nano主控板&#xff0c;通过按键开关切换高低电平&#xff0c;电路搭设如下&#xff0c;该电路属于&#xff1f;&#xff08; &#xff09; A&#xff1a;外部上拉电阻电路 B&#xff1a;外部下拉电阻电路 C&a…

企业智能照明控制系统 为企业实现智能化照明管理

工厂车间传统照明的问题及智能照明系统的优势 谢继东15821713522 一、工厂传统照明存在的问题&#xff1a; 1、工业厂房一般建筑结构高&#xff0c;跨距大。灯具安装悬挂高&#xff0c;照明空间大&#xff0c;灯具回路多&#xff0c;而车间是厂区对照明要求较高的区域&#xf…

如何通过iptables配置URL过滤黑名单?

正文共&#xff1a;1555 字 16 图&#xff0c;预估阅读时间&#xff1a;2 分钟 我们前面曾经简单介绍过URL过滤功能&#xff08;URL过滤功能了解一下&#xff1f;&#xff09;&#xff0c;并且以H3C VFW为例简单配置了一下URL过滤功能。 首先回顾一下&#xff0c;URL过滤&#…

vue3组件插槽

Index.vue: <script setup> import { ref, onMounted } from vue import Child from ./Child.vue import ./index.cssonMounted(() > {}) </script><template><div class"m-home-wrap"><Child>插槽</Child><div class&qu…

UniAD大模型开路,智能车驶入AGI时代

作者 |老缅 编辑 |德新 在刚刚结束不久的北京车展上&#xff0c;除一众明星车型亮相&#xff0c;供应链企业也开始大秀肌肉&#xff0c;其中尤其以端到端大模型为代表&#xff0c;焕新一代的智驾技术栈掀起了新一轮热潮。 作为首个提出感知决策一体化自动驾驶通用模型的公司&…

Linux0.11 中全局描述符表(GDT)

在Linux内核中&#xff0c;全局描述符表&#xff08;Global Descriptor Table&#xff0c;简称GDT&#xff09;是一个关键的数据结构&#xff0c;主要用于管理处理器的内存段和相关的权限与属性。它属于x86架构中的保护模式特性&#xff0c;允许操作系统对内存访问进行更精细的…

k8s个人认知理解

pod的定义 pod里面有容器&#xff0c;所以pod就是一个容器组&#xff0c;一个pod里面可以有多个容器也可以有一个容器&#xff0c;最低只能有一个容器&#xff0c;目前现在主流使用的都是一个pod里面一个容器&#xff0c;同一个pod里面的容器&#xff0c;需要紧耦合。配置文件…

SpringBoot集成Curator实现Watch事件监听

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 Zookeeper是一个Ap…

RabbitMQ的用途

RabbitMQ主要有四个用途&#xff0c;分别是应用解耦、异步提速、削峰填谷、消息分发。详情讲解如下&#xff1a; RabbitMQ介绍、解耦、提速、削峰、分发 详解、RabbitMQ安装 可视化界面讲解 1.应用解耦&#xff1a;提高系统容错性和可维护性 2.异步提速&#xff1a;提升用户体验…

vivado Virtex UltraScale 配置存储器器件

Virtex UltraScale 配置存储器器件 下表所示闪存器件支持通过 Vivado 软件对 Virtex UltraScale ™ 器件执行擦除、空白检查、编程和验证等配置操作。 本附录中的表格所列赛灵思系列非易失性存储器将不断保持更新 &#xff0c; 并支持通过 Vivado 软件对其中所列非易失…

使用sqlmodel实现唯一性校验2,插入之前检查是否已存在

虽然之前添加唯一性校验的方法能够解决数据唯一的问题&#xff0c;但是如果忘了处理异常&#xff0c;则可能会导致程序崩溃。 在此基础上&#xff0c;我们可以在插入数据之前检查该数据是否已存在。 原来的代码&#xff1a; from sqlmodel import Field, Session, SQLModel,…

UE5 C++软引用

一.软引用通常是仅储存资源对象的资源路径没有与资源产生耦合关系的引用&#xff08;软引用加载到内存中&#xff0c;只有在需要的时候才会被加载&#xff09; 软引用通常有FSoftObjectPath、FSoftClassPath、TSoftObjectPtr、TSoftClassPtr。它指向的资源未被加载&#xff0c…