sklearn.preprocessing 特征编码汇总

用于数据分析的特征可能有多种形式,需要将其合理转化成模型能够处理的形式,特别是对非数值的特征,特征编码就是在做这样的工作。

常见特征种类
  • 二值数据:只有两种取值的变量(不一定是0/1,但是可以映射到{ 0 , 1 } {0,1}{0,1}上)
  • 类别数据:多类的数据,如星期一/星期二/…,不一定是非数值的
  • 有序数据:如对电影的打分,分数之间是有大小关系的
  • 标称(Nominal)数据:和类别数据很像,往往是非数值的,但是不具备类别概念,如人名
  • 时序数据:带有瞬时值性质的数据,如日期、时间戳等。从这类数据可以分析随时间的趋势

特别注意区分类别数据特征和标称数据特征,有时标称特征可以删除,有时需要将同标称数据聚合到一起做处理。

以下df_train是全部训练数据,除各个特征外还含有从0开始索引的id列,以及只能取0/1的标签target列。df_train被拆分成了不含targetX,以及仅含t

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cachel wood

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值