TreeEnsemble
文章平均质量分 76
深入理解基于决策树模型构建的各种RF/XGB
ybdesire
Talk is cheap. Show me the code.
展开
-
LightGBM参数说明与参数调优建议
1. 引入从识别率上来说,LGBM并不逊色于XGB和RF;LGBM在笔者很多场景下都优于CatBoost。从工程化上来说,LGBM的模型size小、训练速度快、支持并发训练、兼容sklearn接口、支持GPU训练,这都使得LGBM的工程化能力更强。和RF比较,在准确率相当的前提下,LGBM的size也是比RF小很多倍(LGBM=4M,RF=100MB)。所以接下来写一下LGBM的调参思路, LGBM的参数以参考1中的接口LGBMClassifier命名为准(兼容sklearn的接口)。2. 调参重原创 2021-09-23 23:11:35 · 8410 阅读 · 0 评论 -
RandomForest中的包外误差估计out-of-bag (oob) error estimate
1. 引入从RandomForest的鼻祖Breiman的comments(参考1)中,可以看到他说过:对于RandomForest的validation,没有必要像其他模型一样做cross-validation了,可以直接用RandomForest在内部就提供了out-of-bag (oob) error estimate,用这种方法就可以看出RF的训练效果了。那我们该怎么理解out-of-bag (oob) error estimate呢?2. 原理:oob error estimate首先解释原创 2021-09-18 23:04:31 · 11612 阅读 · 9 评论 -
RandomForest的优点
1. 引入最近需要做表格数据(特征可读,特征多300+个,每个特征只有0/1两种值)分类,就尝试了比较适合表格数据的模型,比如RandomForest(后面缩写为RF), XGBoost(后面缩写为XGB), LightGBM, CatBoost。按理来说,1995年贝尔实验室提出的RandomForest是最老的模型;XGBoost是后来2014年出现的;2017年微软提出的LightGBM进一步提升了XGB的训练效率降低了内存消耗;2017年,俄罗斯最大的搜索引擎 Yandex也开发了CatBoos原创 2021-08-31 23:02:37 · 373 阅读 · 0 评论