立即学习:https://edu.csdn.net/course/play/26133/325591?utm_source=blogtoedu
特征工程的一般流程与步骤:
一、数据处理与特征增强
缺失值处理:均值、中位数、众数填充;
归一化:min-max归一化、分位数归一化、正态分布归一化
二、特征表达与构建
类别特征(离散特征):one-hot编码、TF-IDF编码;
数值特征(连续特征):直接使用(可能通过增强)、离散化(分桶);
三、特征选择
基于统计量:方差(选择方差大的)、皮尔逊相关系数(两个变量之间的比较,-1到1,1为正相关,-1为负相关,0不相关,非常相关的两个特征选1个即可);
基于模型:基于线性模型的系数大小、通过添加或减少特征让模型效果更好。