记录一下我参加DataWhale的数据挖掘实战项目的学习过程。
时间是从2020年8月18号—2020年8月25号晚11:59分截止;
项目来源自天池大赛-资金流入流出预测。
赛题简介
蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。此届大赛以《资金流入流出预测》为题,期望参赛者能够通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为 。
项目预计7天完成,分为以下几个任务:
Task01:数据探索与分析(2天)
Task02:时间序列规则(1天)
Task03:时间序列模型(1天)
Task04:特征工程(1天)
Task05:建模预测(1天)
Task06:学习总结(1天)
Task 05 建模预测
-
训练及预测流程
-
数据该如何划分?
- 训练集、线下验证集、线下测试集、线上测试集
- 无时序的数据集:简单划分、交叉验证划分等
- 有时序的数据集:需考虑时序,nested交叉验证划分等
-
模型选择
- 依据在验证集上的效果选择
- 除了关注效果的均值,还要关注稳健性
- 还需考虑线上效果;可将线上效果视为一折数据
-
参数调优
- 不建议将精力放在参数调优上;容易过拟合
- 大体的设置参数即可
- 应将精力重点放在特征工程;其次是模型融合
Task06 学习总结
我直接在这里总结了。
这次学习,对我来说很有难度,当时学习这个项目的那个星期,我又是在跨市来回面试实习中。时间也不够充分,后续还是要再结合ppt和code继续学习。特征工程部分和建模部分是我最不熟悉的地方了。
觉得很好的是也遇到了好队友,可以进行讨论。嘻嘻。