训练的调优

    1. 调优主要从三个维度进行: 样本,feature,模型 和参数

    2. Feature的调优 :

      1. 首先在少量的样本上(几 K )级别,将训练数据同时也做为预测数据进行测试,添减feature查看效果,开始feature数量为11个,后来添加到20个之后效果有所提升,继续添加新的feature的时候,效果提升不明显,暂时确定feature为这20个。

    3. 样本的调整 :
      1. 针对 classification imbalance问题,主要是2类样本数目过多,制定规则过滤些低贡献样本,同时使用了可靠度更高的label数据。

      2. 加大 0 和1 样本的数量,尽量使得三类样本比例1:1:1

      3. 少量样本上训练出现过度拟合问题如图4,少量样本上train data 也做为test data时发现准确率、覆盖率很高误差不到1%,但是换另外一个test data时误差达到30%,提升训练的样本量,效果又提升上来。

    4. 模型和参数的调整 :

      1. 简单对比过GBDT和RF,SVM的效果,RF的效果最好,RF默认使用200棵树,每个树随机使用60%的sample,60%的feature。调整过sample ration 和feature ratio的比例,对最后的效果影响不大。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值