机器学习初级篇8——数据的编码方式

最新推荐文章于 2024-06-11 21:09:13 发布

zhenteliu

最新推荐文章于 2024-06-11 21:09:13 发布

阅读量3.3k

点赞数 4

分类专栏：机器学习文章标签：机器学习变量编码方式

本文链接：https://blog.csdn.net/zhenteliu/article/details/103002872

版权

机器学习初级篇8——数据的编码方式

类别型特征（ Categorical Feature ）主要是指性别（男、女）、血型（ A 、 B、 AB 、 0 ) 等只在高限选I页内取值的特征。类别型特征原始输入通常是字符串形式，除7决策树等少数模型能直接处理字符串形式的输入 3 对于逻辑回归、支持向量机等模型来说，类别型特征必须经过处理转换成数值型特征才能正确工作。

一.变量的编码方式

1.序号编码

序号编码通常用于处理类别间具有大小关系的数据。例如成绩可以分为低、中、高三挡，并且存在“高＞中＞低”的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值 ID ，例如高表示为 3 、中表示为 2 、低表示为 1 ，转换后依然保留了大小关系。

2.独热编码

1虫热编码通常用于处理类别间不具有大小关系的特征。例如血型，一共有 4 个取值（ A 型血、 B 型血、 AB 型血、 0 型血），独热编码会把血型变成一个 4 维稀疏向量， A 型血表示为（ 1, 0, 0, 0 ) , B 型血表示为（ 0, I, 0, 0 ) , AB 型表示为（ 0, 0, I, 0 ) , 0 型血表示为（ 0, 0,
0, I ）。对于类别取值较多的情况下使用独热编码需要注意以下问题。
( I ）使用稀疏向量来节省空间。在独热编码下，特征向量只有某一维取值为 1 ，真他位置取值均为 0。因此可以利用向量的稀疏表示有效地节省空间，并且目前大部分的算法均接受稀疏向量形式的输入。
( 2 ）配合特征选择来降低维度。高维度特征会带来几方面的问题。一是在 K近邻算

最低0.47元/天解锁文章

zhenteliu

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
机器学习初级篇8——数据的编码方式

机器学习初级篇8——数据的编码方式一.变量的编码方式1.序号编码2.独热编码3.二进制编码3.哑变量编码方式二.哑变量编码与独热编码的区别与联系三.连续值的离散化为什么会提升模型的非线性能力？类别型特征（ Categorical Feature ）主要是指性别（男、女）、血型（ A 、 B、 AB 、 0 ) 等只在高限选I页内取值的特征。类别型特征原始输入通常是字符串形式，除7决策树等少...
复制链接

扫一扫