Markdown编辑器似乎崩掉 只能用文本
part3 特征工程
特征构造
这边处理了outilers(box plot).
然后开始特征构造, 会将train test合并数据集, 然后更具对于特征的现实理解, 增加了 used_time, brand的相关信息.
同时可以构建一些统计量特征
之后开始数据分桶, 这主要是为了计算快同时也减少异常值的影响.
为了分布normal 可以进行log处理 之后进行归一化
特征筛选
过滤(根据corr)
Markdown编辑器似乎崩掉 只能用文本
这边处理了outilers(box plot).
然后开始特征构造, 会将train test合并数据集, 然后更具对于特征的现实理解, 增加了 used_time, brand的相关信息.
同时可以构建一些统计量特征
之后开始数据分桶, 这主要是为了计算快同时也减少异常值的影响.
为了分布normal 可以进行log处理 之后进行归一化
过滤(根据corr)