-
-
调优主要从三个维度进行: 样本,feature,模型 和参数
-
Feature的调优 :
-
首先在少量的样本上(几 K )级别,将训练数据同时也做为预测数据进行测试,添减feature查看效果,开始feature数量为11个,后来添加到20个之后效果有所提升,继续添加新的feature的时候,效果提升不明显,暂时确定feature为这20个。
-
-
样本的调整 :
-
针对 classification imbalance问题,主要是2类样本数目过多,制定规则过滤些低贡献样本,同时使用了可靠度更高的label数据。
-
加大 0 和1 样本的数量,尽量使得三类样本比例1:1:1
-
少量样本上训练出现过度拟合问题如图4,少量样本上train data 也做为test data时发现准确率、覆盖率很高误差不到1%,但是换另外一个test data时误差达到30%,提升训练的样本量,效果又提升上来。
-
-
模型和参数的调整 :
-
简单对比过GBDT和RF,SVM的效果,RF的效果最好,RF默认使用200棵树,每个树随机使用60%的sample,60%的feature。调整过sample ration 和feature ratio的比例,对最后的效果影响不大。
-
-