高基数特征-类别特征常用的处理方式

网址,特征处理方式
(https://zhuanlan.zhihu.com/p/26308272)

平均数编码:针对高基数定性特征(类别特征)的数据预处理
类别型特征:都是字符串,都在固定几个类中选择,有限的类别,
如何处理:
1.序号编码,比如,成绩,优秀》良》合格》不合格,分别赋值4,3,2,1
2/ 独热编码,互相之间没有顺序,比如颜色,血型
那么,就做成矩阵的,有的就赋值1,没有就0,从1维变成4维矩阵
A B AB O
10 0 0
0 1 0 0
0 0 1 0
0 0 0 1
变成稀疏矩阵,就会占用大量的空间,如何解决
1/使用稀疏向量的方式来存储特征,就会节省很多空间,使用现成的函数能够
2/降维,PCA,降低维度,
三/二进制编码
血型,A B AB O,分别给他们编个号分别1 2 3 4,使用二进制方法,分别表示1=001 2=010 3=011 4=100,比独热编码少了一维,当数据量大的时候可以节省很多空间

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值