该比赛马上就要结束,0424日答辩。获得了前六的名次,本次比赛给我的感觉就是一言难尽呐。
昨天(0515)比赛结果出来了,最终排名有点抖(前四)。比如”清华小分队“靠答辩结束后达到了第二名,也是很好奇别人的方案是个什么样子的。昨天加了几个人然后聊了一下,发现里面暗流涌动,该比赛竟然成了各大高校的竞技场,也是异常的精彩。
我先总结下整个比赛数据的情况:
赛题要求:
1 模型数量限制,不超过3个;
2 数据较少。
在数据较少的情况下还要求模型数量的限制,加大了建模难度,其次在数据分析阶段发现异常数据也是不少。
异常数据:我们简单实用了箱型图进行检测然后盖帽处理。
其次对目前数据进行了拆分: 周期+趋势,这一个部分就是对标签进行了转化,通过分析表明人流变化呈现按照周为单位的周期。
其实如果直接使用上周的作为本周的预测值MAPE能狗达到0.93左右,周期行还是比较明显,因此在特征上面我们对滑动窗口也是作为处理。
其中我们还使用了三指数平滑模型(6个模型),效果也不错0.94。但是官方不是限制在3个模型,这是也给了我们思路,因为三指数平滑的本质可不就是周期与趋势部分的预测。
重点部分:
数据预处理:
- 把202303月份之前的数据全部舍弃,因为该部分异常数据较多(节假日因素)。
- 异常数据处理:使用箱型图盖帽处理;
- 文本特征:tf_idf + word2Vec;
- 节假日特征;
- 天气特征数据;
标签变化:
- 使用当前交通工具的客流量 / 上周的客流量; 让模型专心攻破非周期带来的波动问题,也能更快的收敛。
模型部分:
- 3个lighgGBM;
- 趋势(通过画图能看出流量是在逐渐增加的趋势);
模型融合:
这一部分其实周六周日比较难以预测,因此我们也是针对这个部分进行了加权后处理的方式;
备注:
跟第一名交流别人的方案使用了LSTM,但是我在前期并没有收敛效果也不是很好,也是想往这个方面尝试如何处理数据结构,后面得到了心得体会我在补充。