文章目录
用于数据分析的特征可能有多种形式,需要将其合理转化成模型能够处理的形式,特别是对非数值的特征,特征编码就是在做这样的工作。
常见特征种类
- 二值数据:只有两种取值的变量(不一定是0/1,但是可以映射到{ 0 , 1 } {0,1}{0,1}上)
- 类别数据:多类的数据,如星期一/星期二/…,不一定是非数值的
- 有序数据:如对电影的打分,分数之间是有大小关系的
- 标称(
Nominal
)数据:和类别数据很像,往往是非数值的,但是不具备类别概念,如人名 - 时序数据:带有瞬时值性质的数据,如日期、时间戳等。从这类数据可以分析随时间的趋势
特别注意区分类别数据特征和标称数据特征,有时标称特征可以删除,有时需要将同标称数据聚合到一起做处理。
以下df_train
是全部训练数据,除各个特征外还含有从0开始索引的id
列,以及只能取0/1
的标签target
列。df_train
被拆分成了不含target
的X
,以及仅含t