一,特征连续如何选择分割点
1,根据样本平均数分割,取特征的最大值减去最小值,再除以N份,求每一份的信息熵2,根据样本类别分割,将样本投影在特征上分出N类别,在每个类别中取一个点,或中值,或平均值等,然后算熵
3,(推荐)随机取点:在最大值与最小值中随机取个点,取N次,算每次熵。
二,样本不均衡的常用处理方法假定样本A的数目比B类多,且严重不平衡。样本本身的不均衡,如信用卡欺诈
或样本采集造成的不均衡
1,A类欠采样(推荐)
(1)在A中随机分成若干个子类,分别与B类生成若干个决策树
(2)基于聚类,将A类分割成若干类,在每类中随机取若干个样本,与B类生成决策树
2,B类过采样
将B类重复取样N次
3,B类数据合成
随机插值得到新样本
4,代价敏感学习
降低A类的权值,提高B类的权值