学习知识点概要
- 特征值处理
- 缺失值补充
- 时间格式处理
- 类别特征处理
- 异常值处理
- 数据分桶
- 特征交互
- 特征编码
- 特征选择
学习内容
特征值处理
查找特征
.select_dtypes():根据数据类型选择特征
缺失值填充
.fillna():用字典填充
时间格式处理
.striptime():根据指定的格式把一个时间字符串解析为时间元组
类别特征处理
.nunique():返回唯一值得个数
异常值处理
均方差
数据分桶
特征分箱的目的:
降低变量的复杂性,减少变量噪音的影响,提高自变量和因变量的相关性
数据分桶的对象:
连续变量离散化
多状态的连续变量合并成少状态
分箱的原因:
数据的特征内的值跨度比较大时
分箱的优点:
- 处理缺失值
- 处理异常值
- 业务解释性
特征编码
labelEncode
特征选择
精简掉无用特征,降低最终模型的复杂性,保证准确率的情况下提高速度。
问题与解答
暂无
思考与总结
通过这次学习,我了解到了如何用python编写函数计算特征值,也学习到了如何对特征进行预处理,这对我之后的数据分析学习提供了很大的帮助,我会继续努力,掌握这项技能。