文章目录
引言
以下部分完整代码见Github:https://github.com/Libra-1023/data-mining/blob/master/Bank_customer_churn/outlier_missingvalues_date_process.ipynb
一、极端值的处理
极端值又称为离群值,往往会扭曲预测结果会影响模型精度。回归模型中离群值的影响尤其大,使用该模型我们需要先对其进行监测和处理。
1.极端值(异常值)监测的重要性
- 需要自己判断极端值对建模的影响,并结合实际问题选取处理方法
- 检测极端值的重要性:由于极端值的存在,模型的估计和预测可能会有很大的偏差和变化
- 可以选择对极端值不敏感的模型,例如KNN,决策树
案例如下:
通过可视化发现,