机器学习17-随机森林中的细节点(更新中)

一,特征连续如何选择分割点

1,根据样本平均数分割,取特征的最大值减去最小值,再除以N份,求每一份的信息熵
2,根据样本类别分割,将样本投影在特征上分出N类别,在每个类别中取一个点,或中值,或平均值等,然后算熵
3,(推荐)随机取点:在最大值与最小值中随机取个点,取N次,算每次熵。



二,样本不均衡的常用处理方法假定样本A的数目比B类多,且严重不平衡。样本本身的不均衡,如信用卡欺诈
或样本采集造成的不均衡

1,A类欠采样(推荐)

   (1)在A中随机分成若干个子类,分别与B类生成若干个决策树
   (2)基于聚类,将A类分割成若干类,在每类中随机取若干个样本,与B类生成决策树
2,B类过采样
     将B类重复取样N次
3,B类数据合成
     随机插值得到新样本
4,代价敏感学习

      降低A类的权值,提高B类的权值


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值