离散数据编码方式总结(OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVector

写在前面

在机器学习的特征选择的时候,往往有一些离散的特征不好计算,此时需要对这些特征进行编码,但是编码方式有很多,不同的包也会有不同的编码方式。(明白OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVectorizer的区别吗?)

通过在Titanic预测的学习, 在这里对不同包的编码方式进行一个小总结。 至少以后使用的时候,不那么的乱用了。

先记住对离散数据进行编码的总原则:

  • 离散特征的取值之间没有大小的意义,比如color:[red,blue], 性别的男女等,那么就使用OneHot编码
  • 离散特征的取值有大小的意义,比如size:[X,XL,XXL],身高的高,中,低等,那么就使用数值的映射(数字){X:1,XL:2,XXL:3}进行编码

列出不同的包可以实现上面功能的函数

  • 进行OneHot编码
  1. pd.get_dummies()
  2. sklearn.preprocessing.OneHotEncoder()
  3. sklearn.feature_extraction.DictVectorizer()
  • 进行数字编码
  1. map函数映射
  2. sklearn.preprocessing.LabelEncoder()
  3. sklearn.preprocessing.OrdinalEncoder()

下面就分别梳理一下不同的包里面一些不同的函数进行编码时使用方法,这里以Titanic中的数值处理的例子展开:

Titanic数据的原始形式长这个样子:

在这里面,可以发现,Sex列的这一个特征有’male’和’female’两个取值,而这两个值相互之间没有大小的意义,所以需要对Sex列进行独热编码。

而Pclass列的取值“3”,“2”, “1” 表示的船票的等级,有大小的意义,我们对其进行数字编码(因为这个3, 2, 1本身是数字,后面我为了更好的解释数字编码,提取数据的时候,把3, 2, 1转换成“high”, “medium”, “low”,这样带有等级意义的字符串)

所以下面,我单独提取这两列数据进行操作,任务就是把Sex列进行Onehot编码, 对Pclass列进行数字编码。我提取处理后的数据长这样:

任务一:OneHot编码

方法一:pd.get_dummies

这是pandas自带的将数据转成独热编码的方式,简单,并且好用,可以当做首选,尤其是表格数据的时候。详情可以参考官方文档,也可以简单的参考一下这篇笔记pandas.get_dummies 的用法。

这里,我只想通过上面的任务看看应该怎么使用。

再看一遍数据的样子:

看上面的data数据,如果我直接对整个data进行编码的话

d = pd.get_dummies(data)
print(d)

结果如下:

当然这里,我们只需要对Sex列进行独热编码

data1 = pd.get_dummies(data['Sex'], columns=np.unique(data['Sex'].values)) 
data1

结果如下:

注意: get_dummies转独热编码,是针对离散的字符串的数据,整数的话我发现仍然保留原来的样子。

方法二:OneHotEncoder()

输入是字符串或者整数。

但是要注意,OneHotEncoder的fit_transform()函数接收是二维数组的形式,所以如果是pandas表格的某一列,也需要到时候转换一下,直接看操作把。输出也是二维数组的形式。下面我又DataFrame了一下

from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(sparse=False)# 非稀疏 
data2 = ohe.fit_transform(data['Sex'].values.reshape(-1,1))# 转成二维数组
ohe.get_feature_names_out() 
data2 = pd.DataFrame(data2, columns=['female','male']) 
data2

结果长这样:

方法三:DictVectorizer

实现了 “one-of-K” 或 “one-hot” 编码,用于分类(也称为标称,离散)特征。分类功能是 “属性值” 对,其中该值被限制为不排序的可能性的离散列表(例如主题标识符,对象类型,标签,名称…)。

这个fit_transform里面接收的要是一个字典的形式,输出是二维数组。

from sklearn.feature_extraction import DictVectorizer dvec = DictVectorizer(sparse=False) 
data3 = dvec.fit_transform(data.to_dict(orient='record')) 
data3

这里我先用了整个data看看效果,会发现那两列字符串都转成了OneHot的形式

如果是只需要转换Sex列,需要下面这样:

temp = pd.DataFrame(data['Sex'], columns=['Sex'])
dvec = DictVectorizer(sparse=False) 
data3 = dvec.fit_transform(temp.to_dict(orient='record')) 
data3

把Sex列单独拿出来处理。

方法四: 附加一个keras.utils.to_categorical

这个也是实现的one-hot编码,不过一般是用于类别,也就是标签的时候,是把类别标签转换为onehot编码(categorical就是类别标签的意思,表示现实世界中你分类的各类别),如果特征想要编码成one-hot,还是不要用这个了吧。原型如下:

to_categorical(y, num_classes=None, dtype=‘float32’)

将整型的类别标签转为onehot编码。y为int数组,num_classes为标签类别总数,大于max(y)(标签从0开始的)。

返回:如果num_classes=None,返回len(y) * [max(y)+1](维度,m*n表示m行n列矩阵,下同),否则为len(y) * num_classes。

下面看个例子:

import keras ohl=keras.utils.to_categorical([1,3]) 
# ohl=keras.utils.to_categorical([[1],[3]]) 
print(ohl) 
""" 
[[0. 1. 0. 0.] [0. 0. 0. 1.]] 
""" ohl=keras.utils.to_categorical([1,3],num_classes=5) 
print(ohl) 
""" 
[[0. 1. 0. 0. 0.] [0. 0. 0. 1. 0.]] 
"""

任务二:数字映射编码

方法一:map()函数映射

这是一种很方便,很快的方式。使用map()函数。

pclass_map ={label:idx for idx, label in enumerate(set(data['Pclass']))} 
# 也可以pclass_map = {"low":0, "medium":1, "high":2} 
d1 = data['Pclass'].map(pclass_map) 
d1

上面可以发现,如果是用for循环的这种map函数, 编码形式虽然是0,1,2这种数字形式,但是含义已经掩盖掉了。 也就是说0,1,2已经不能说明什么意义了,只是分别代表high,medium,low这三个字符串。所以如果类别少的话,我们最好是自己自定义进行映射,比如上面我注释掉的那个,那个的0,1,2还分别代表低,中,高,顺序意义还在。

为什么说这点呢? 接下往下看。

方法二:LabelEncoder()

这个看官方文档,一般是用于类别标签的,如果用于特征的话,默认并不是按照低、中、高这样的顺序进行编码的,也就是说,这个和上面那种for循环定义映射的那个一样,虽然成功的改成了数字,但是意义不在了。

from sklearn.preprocessing import LabelEncoder le = LabelEncoder() 
d2 = le.fit_transform(data['Pclass']) 
d2

所以人家官方文档才把这个函数的作用说成:

使用0到n_classes-1之间的值对目标标签进行编码。该转换器应用于编码目标值,即 y,而不是输入X。

所以这个函数,别乱用到特征的编码。

方法三:OrdinalEncoder()

将分类特征编码为整数数组。

该转换器的输入应为整数或字符串之类的数组,表示分类(离散)特征所采用的值。要素将转换为序数整数。这将导致每个要素的一列整数(0到n_categories-1)。

所以,这个才是真正的用到分类特征上的映射数字编码,并且还会保留原来的顺序。

from sklearn.preprocessing import OrdinalEncoder oe = OrdinalEncoder() 
d3 = oe.fit_transform(data['Pclass'].values.reshape(-1,1)) 
d3

看这个函数,把低,中,高分别编码成了0, 1, 2. 保留了原来的顺序。

所以这个函数编码中也是很好用的。

总结一下

根据上面的使用简单的总结一下:

1、独热编码用于离散的特征且数据无大小意义的数据

  • get_dummies,输入可以是pandas, 输出的时候会多出转换后的几列,这个好用一点。数值内容会被遍历当作表头。
  • OneHotEnCoder的fit_transform,输入是二维数组(字符串或者整数),把每一行当作一个样本,每一列当作一个特征,输出的形式也是二维数组。数值内容会被遍历当作表头。
  • DictVectorizer的fit_transform,输入是字典形式,输出的形式也是二维数组。数值内容会保留。

2、数字映射编码

  • map()映射灵活性很强,就看自己怎么写了。
  • LableEncoder是用于类别标签的,不会保留大小意义,数值内容会保留。
  • OrdinalEncoder是用于特征的,可以保留大小意义,输入为整数或字符串之类的数组,数值内容会保留。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/95649.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Stable Diffusion的AIGC服饰穿搭实践

本文主要介绍了基于Stable Diffusion技术的虚拟穿搭试衣的研究探索工作。文章展示了使用LoRA、ControlNet、Inpainting、SAM等工具的方法和处理流程,并陈述了部分目前的实践结果。通过阅读这篇文章,读者可以了解到如何运用Stable Diffusion进行实际操作&…

centos安装nginx实操记录(加安全配置)

1.下载与安装 yum -y install nginx2.启动命令 /usr/sbin/nginx -c /etc/nginx/nginx.conf3.新建配置文件 cd /etc/nginx/conf.d vim index.conf配了一个负责均衡,如不需要,可将 server localhost: 多余的去掉 upstream web_server{server localhost…

android 实现本地一键打包,告别繁琐的studio操作

前言 在实际开发项目中,我们的工程目录往往是多个app在一个工程下的,每次打包都需要手动的用studio点击Build->Generate Signed Bundle or APK->APK 选择app,签名等,甚至有的app签名还不一样,还需要手动的来回切…

Vue中如何为Echarts统计图设置数据

在前端界面接收后端数据后,将数据赋值给ECharts中的data时出现了,数据读取失败的问题(可能是由于数据渲染的前后顺序问题)。后通过如下方式进行了解决: 1、接下来将介绍UserController中的countUsers方法,…

【数据结构】二叉树篇|超清晰图解和详解:二叉树的序列化和反序列化

博主简介:努力学习的22级计算机科学与技术本科生一枚🌸博主主页: 是瑶瑶子啦每日一言🌼: 你不能要求一片海洋,没有风暴,那不是海洋,是泥塘——毕淑敏 目录 一、核心二、题目2.1:前序遍历2.2&…

优思学院|六西格玛中的概率分布有哪些?

为什么概率分布重要? 概率分布是统计学中一个重要的概念,它帮助我们理解随机变量的分布情况以及与之相关的概率。在面对具体问题时,了解概率分布可以帮助我们选择适当的检验或分析策略,以解决问题并做出合理的决策。 常见的概率…

Level-based Foraging 多智能体游戏仿真环境

游戏场景测试 参考链接: https://kgithub.com/semitable/lb-foraging

Kubernetes技术--k8s核心技术 Secret

1.概述 Secret 解决了密码、token、密钥等敏感数据的配置问题,而不需要把这些敏感数据暴露到镜像或者 Pod Spec中。Secret可以以 Volume 或者环境变量的方式使用。 作用 加密数据存储在/etc中,使得pod容器以挂载volume方式进行访问。在进行的数据存储中是以base64加密的方式…

Mysql批量插入大量数据的方法

使用存储过程进行插入&#xff0c; 在navicate中示例如下&#xff1a; 输入需要的参数点击完成 在begin end中输入代码&#xff0c;示例代码如下 CREATE DEFINERskip-grants userskip-grants host PROCEDURE batch_insert() BEGINdeclare i int default 0; set i0;while i<1…

【实战】十一、看板页面及任务组页面开发(六) —— React17+React Hook+TS4 最佳实践,仿 Jira 企业级项目(二十八)

文章目录 一、项目起航&#xff1a;项目初始化与配置二、React 与 Hook 应用&#xff1a;实现项目列表三、TS 应用&#xff1a;JS神助攻 - 强类型四、JWT、用户认证与异步请求五、CSS 其实很简单 - 用 CSS-in-JS 添加样式六、用户体验优化 - 加载中和错误状态处理七、Hook&…

学会Mybatis框架:让你的开发事半功倍【五.Mybatis关系映射】

目录 &#x1f973;&#x1f973;Welcome Huihuis Code World ! !&#x1f973;&#x1f973; 导语 一、一对一的关系映射 1.表结构 2.resultMap配置 3.测试关系映射 二、一对多的关系映射 1.表结构 2.resultMap配置 3.测试关系映射 三、多对多的关系映射 1.表结构…

安防监控视频平台EasyCVR视频汇聚平台定制项目增加AI智能算法详细介绍

安防视频集中存储EasyCVR视频汇聚平台&#xff0c;可支持海量视频的轻量化接入与汇聚管理。平台能提供视频存储磁盘阵列、视频监控直播、视频轮播、视频录像、云存储、回放与检索、智能告警、服务器集群、语音对讲、云台控制、电子地图、平台级联、H.265自动转码等功能。为了便…