gbdt版本
MDD Cup 2017,是
美团点评内部首届算法大赛,主要是预测外卖的送达时间,是一个回归问题,简单说一说比赛过程自己的所思所想,记录一下。
拿到数据后,根据大赛的说明简单分析了一下,训练集给出的是一个月的部分数据,测试集是下一个月的数据,需要注意的是训练集给出的是每天24h的数据,而测试集只需要预测11点和17点高峰时期两个小时的数据,而且给出了10点和16点的数据用来辅助分析(测试集每天只有4个小时的数据)。因为测试只需要高峰期的数据,训练数据集需要和测试数据集分布一致,首先看一下训练数据集每天每个小时的订单分布(如下图),用来筛选数据,去除无效的数据。根据图中每个小时的订单数量分布,我们只留下了10点到20点的数据。我们希望尽量保留多的数据用来训练,模型的效果取决于数据、特征和参数,有效数据越多,泛化性就越好。