1. 数据预处理
1.1 缺失值处理
- 根据经验值填充失数据
- 计算均值,中位数,众数。。等填充数据
- 重新获取缺失数据
1.2 数据格式/字符类型不符
1.3 逻辑错误
- 数据重复,去重操作
- 数据逻辑不合理,如存在相关性的值之间存在矛盾(eg: 身份证号码和填写生日)
1.4 非需求数据处理
1.5 文本数据
1.6 图片数据
2. 数据变换
2.1 尺度缩放
- 0-1标准化,z标准化(使不同特征的权重标准化)
- 归一化操作对于向量
2.2 特征变化
- 二值化,如将数据划分为0,1
- 分区间,如对于面积,价格等量,划分区间处理
- 精度调整,如小数点后保留的位数
- log变换,处理大数据
3. 特征表示与特征交互
3.1 特征表示
- 自然数编码与one-hot编码
自然数编码对于有实际差别意义的场景;one-hot编码在特征空间中,坐标之间的距离是相等的,适用于无实际差别意义的场景
3.2 特征交互
- 两个或多个特征,构建出新特征
- 特征组合,多个特征放在一起处理
4. 文本
4.1 文本特征提取
- 词袋:分词,编号(每个词出现的次数),将文本转化为特征向量
- bag-of-ngram:对词进行组合
4.2 词频统计TF-IDF
TF * log(IDF), 对IDF log变换以压缩
TF词频=出现次数/文档总次数
IDF词频=文档总数/出现某词文档数
5. 图像
6. 特征选择
- 考虑每个特征的权重,以进行特征选择;
- 对特征全集取子集,生成不同的组合;(控制变量)在模型既定时,加入不同的特征,选择准确度更高的