不同变量编码的方法

最新推荐文章于 2022-07-26 17:50:02 发布

机器爱学习时我也爱学习

最新推荐文章于 2022-07-26 17:50:02 发布

阅读量987

点赞数

分类专栏：机器学习文章标签：机器学习自然语言处理人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zero33325/article/details/120390129

版权

机器学习专栏收录该内容

8 篇文章 4 订阅

订阅专栏

文章目录

1 为什么需要对变量进行编码？
2 数据类型有哪几类？
- 2.1 不同数据类型举例
3. 如何对不同类型的变量进行编码？

1 为什么需要对变量进行编码？

对于机器学习模型来说，预测模型只能对数值类型进行建模分析，而很多时候变量不是数值类型的。比如很多分类变量（如性别：{’'男,‘女’})是字符串类型的，在输入到模型进行训练之前需要将变量的取值转化为数值类型。

2 数据类型有哪几类？

将数据分为三个维度，首先按变量取值是否为连续值可以分为{连续，离散}，按照变量是否为数值型分为{数值型，非数值型}，按照变量的值是否可以排序可以分为{可排序，不可排序}。理论上按照这三个维度，共有8种数据类型：

连续-数值型-可排序
连续-数值型-不可排序
连续-非数值型-可排序
连续-非数值型-不可排序
离散-数值型-可排序
离散-数值型-不可排序
离散-非数值型-可排序
离散-非数值型-不可排序

但是有几种数据是不存在的，因为连续变量一定是数值型的，有意义且可以排序。所以2、3、4这样的变量类型是不存在的。

2.1 不同数据类型举例

2.1.1 连续-数值型-可排序

比如GDP、收入等等，在某个实数区间内可以取到任何值，且值的大小可以比较。

2.1.2 离散-数值型-可排序

比如每个人持有信用卡的数量，只能取到0-n的整数，所以不连续，但是值的大小可以比较，是有实际意义的。

2.1.3 离散-数值型-不可排序

这种情况下，一个变量的取值是一般是整数，但是不是数字含义，更像是代号。用类似abc的字母也能代替。比如一个变量代表地区信息，1代表北京，2代表上海，3代表广州…这个时候数字更像是代号，而不是真实的含义。这个时候值的大小无法比较，不能说2>1(即北京>上海)，所以这时候变量的值是不可排序的，或者说没有顺序。

2.1.4 离散-非数值型-可排序

比如说人的年龄，取值为幼年、青年、中年、老年，这个时候变量不是数值型的，但是该变量的取值有明显的顺序关系——幼年<青年<中年<老年，这个时候虽然值不是数值型的，但是却是可以排序的。

2.1.5 离散-非数值型-不可排序

比如说变量为行业类型，可以分为计算机、会计、媒体、零售、农业、旅游业、金融等，为离散变量，非数值型，且变量去值为并列的，没有大小关系，不可排序。

3. 如何对不同类型的变量进行编码？

3.1 连续-数值型-可排序

连续变量一般不需要编码，可以直接输入到模型。但是很多时候需要对连续变量进行离散化，这时候需要用到变量分箱，再配合变量编码（如WOE编码，Label编码)，可以提高变量的可解释性，降低异常值的影响。

3.2 离散-数值型-可排序

一般不需要进行编码，可以直接输入模型

3.3 离散-数值型-不可排序

因为是不可排序的变量，所以数值是没有意义的。为了保证各个取值的距离相等，一般采用独热编码(one hot encoder)对变量进行编码，也可用WOE编码。

3.4 离散-非数值型-可排序

一般采用Label编码对这种类型的变量进行编码，数值无实际意义，但是可以比较大小、距离。

3.5 离散-非数值型-不可排序

一般采用独热编码(one hot encoder)或者WOE编码对这种变量编码。

加粗样式

机器爱学习时我也爱学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
不同变量编码的方法

文章目录1 为什么需要对变量进行编码？2 数据类型有哪几类？2.1 不同数据类型举例2.1.1 连续-数值型-可排序2.1.2 离散-数值型-可排序2.1.3 离散-数值型-不可排序2.1.4 离散-非数值型-可排序2.1.5 离散-非数值型-不可排序3. 如何对不同类型的变量进行编码？3.1 连续-数值型-可排序3.2 离散-数值型-可排序3.3 离散-数值型-不可排序3.4 离散-非数值型-可排序3.5 离散-非数值型-不可排序1 为什么需要对变量进行编码？对于机器学习模型来说，预测模型只能对数值类
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。