一、特征筛选方法
1.特征筛选是选择有效特征子集的过程,旨在从原始特征空间中选出最有效的特征。
2.特征筛选不是所有竞赛的必经步骤,仅当特征有效性不足时才进行。
3.特征筛选的目的是降低特征维度,提高模型训练效率和预测精度。
二、基于统计值的特征筛选
1.基于统计值的特征筛选依据特征的统计特性进行筛选。
2.常用的统计指标包括方差、缺失比例、分布一致性以及与标签的相关性。
3.通过统计值分析,可以剔除信息量小、缺失比例高或与标签相关性弱的特征。
三、基于模型的特征筛选
1.模型特征筛选通过衡量特征对模型精度的影响来进行。
2.线性模型和树模型有不同的特征重要性衡量方法,如线性模型的系数和树模型的节点分裂信息增益。
3.排列重要性法通过打乱特征顺序观察模型精度变化来评估特征重要性。
4.非重要性特征筛选通过打乱标签顺序观察特征重要性变化来判断特征与标签的相关性。