机器学习- 树模型特征重要性原理总结
https://blog.csdn.net/qq_16236875/article/details/98307383
1.随机森林特征重要性原理
判断每个特征在随机森林中的每棵树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小,其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。
-
基于袋外数据误差,对特征X给于扰动,得到特征重要性评分
-
基于基尼系数,计算特征增益–sklearn中默认指标
参考: https://www.cnblogs.com/justcxtoworld/p/3447231.html#3975497
2.xgboost特征重要性原理
-
xgboost实现中Booster类get_score方法输出特征重要性,其中importance_type参数支持三种特征重要性的计算方法:
1.importance_type=weight(默认值),特征重要性使用特征在所有树中作为划分属性的次数。
2.importance_type=gain,特征重要性使用特征在作为划分属性时loss平均的降低量。
3.importance_type=cover,特征重要性使用特征在作为划分属性时对样本的覆盖度
-
参考:https://www.jianshu.com/p/2920c97e9e16