机器学习17-随机森林中的细节点（更新中）

最新推荐文章于 2021-09-02 10:42:01 发布

新之

最新推荐文章于 2021-09-02 10:42:01 发布

阅读量993

点赞数

分类专栏：机器学习理论文章标签：随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xinzhi8/article/details/73279123

版权

一，特征连续如何选择分割点

1，根据样本平均数分割，取特征的最大值减去最小值，再除以N份，求每一份的信息熵
2，根据样本类别分割，将样本投影在特征上分出N类别，在每个类别中取一个点，或中值，或平均值等，然后算熵
3，（推荐）随机取点：在最大值与最小值中随机取个点，取N次，算每次熵。

二，样本不均衡的常用处理方法假定样本A的数目比B类多，且严重不平衡。样本本身的不均衡，如信用卡欺诈
或样本采集造成的不均衡

1，A类欠采样（推荐）
（1）在A中随机分成若干个子类，分别与B类生成若干个决策树
（2）基于聚类，将A类分割成若干类，在每类中随机取若干个样本，与B类生成决策树
2，B类过采样
将B类重复取样N次
3，B类数据合成
随机插值得到新样本
4，代价敏感学习

降低A类的权值，提高B类的权值

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习17-随机森林中的细节点（更新中）

一，特征连续如何选择分割点1，根据样本平均数分割，取特征的最大值减去最小值，再除以N份，求每一份的信息熵2，根据样本类别分割，将样本投影在特征上分出N类别，在每个类别中取一个点，或中值，或平均值等，然后算熵3，（推荐）随机取点：在最大值与最小值中随机取个点，取N次，算每次熵。二，样本不均衡的常用处理方法假定样本A的数目比B类多，且严重不平衡。样本本身的不均衡，如信用卡欺
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。