【时序预测实战】【资金流入流出赛题与数据理解】

一、赛题介绍

平台拥有大量用户,每天都有大量资金流入流出,资金管理压力大,希望在保证资金流动性风险最小,又满足日常业务运转的情况下,精确预测资金流入流出情况

赛题任务

利用2013年7月–2014年8月的数据,预测2014年9月每一天申购和赎回的总量

二、数据介绍

1. 用户信息表: user_profile_table

约 2.8 万个用户的基本数据,主要包含了用户的ID、性别、城市和星座
在这里插入图片描述

2. 用户申购赎回数据表: user_balance_table

2013年07月01日 至 2014年08月31日 申购和赎回信息、以及所有的子类目信息, 数据经过脱敏处理。数据主要包括用户操作时间和操作记录
在这里插入图片描述
在这里插入图片描述

注意:脱敏后的数据保证了今日余额 = 昨日余额 + 今日申购 - 今日赎回,不会出现负值。

3. 收益率表:mfd_day_share_interest

余额宝在 14 个月内的收益率表
在这里插入图片描述

4. 上海银行间同业拆放利率(Shibor)表: mfd_bank_shibor

银行间拆借利率表是 14 个月期间银行之间的拆借利率(皆为年化利率)
在这里插入图片描述

5. 收益的计算方式

收益计算的时间是自然日,以 0 点为分隔,如果是 0 点之前转入或者转出的金额算作昨天的,如果是 0 点以后转入或者转出的金额则算作今天的。

收益的显示时间,即实际将第一份收益打入用户账户的时间为如下表格:
在这里插入图片描述

6. 需要提交的结果表 tc_comp_predict_table

在这里插入图片描述

三、评估指标

为了避免某些天的异常表现会严重影响一些传统评价指标,例如MSE、MAE,我们的目的是为了让每一天的预测误差都较小,所以采用了积分制,每天10分,一个月一共300分,若某天预测误差较小,则可得分数满分10分,若误差较大,则可能会0分,计算公式不公布。

最后的总积分计算:
在这里插入图片描述
最后公布总积分 = 申购预测得分 *45%+ 赎回预测得分 *55% 。

遇到的问题
  1. 下图的公式如何获得?
    在这里插入图片描述

四、了解数据时的常见问题

1. 预测的申购是否包括收益的?

是的,预测的申购包含收益。

2. 什么是万份收益?

万份收益是对货币基金收益的一个指标,简单理解就是假设你买了1万块,当天的万份收益是1.2,则你当天的收益,1.2元。

3. 什么是七日年化收益率?

7日年化收益率仅是基金过去7天的盈利水平信息,并不意味着未来收益水平。七日年化收益率是货币基金过去七天每万份基金份额净收益折合成的年收益率。

4. 昨天的申购量是不是就是指昨日余额呢?

昨天的申购就是新转入的,余额是余额宝账号里面总的资金。周末申购的,要到周一才确认(忽略节日)。

五、数据探索方法

5.1 时间序列图与数据分布可视化

  • 通过折线图观察数据特点,了解周期性、季节性、震荡幅度等
  • 直方图和密度曲线图观察数据的分布
  • 箱线图关注异常值、中位数
  • 小提琴图是箱线图和核密度图的结合体,用来显示数据分布及其概率密度
    在这里插入图片描述

5.2 变量间相关性与独立性分析

相关性分析

按照定类、定序、定距分类,找出变量间的线性相关性,采用的相关系数为:

相关系数(Correlation coefficient)是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。

在这里插入图片描述

独立性检验

变量间可能存在非线性关联,需要做独立性检验。
在这里插入图片描述
本次使用的计算方法是基于均值方差指数的无分布独立性测试。是基于一种无分布假定的独立性检验得到的,可分析一个离散型变量与一个连续型变量间的独立性。这种方法与梯度提升树有较大差异,可以避免排序建模方法与特征选择方法间的同质性。

关于独立性和相关性的区别
  • 独立性:看变量之间是相互独立还是有关系(这种关系包括线性关系和非线性关系)
  • 相关性:看变量之间是否有线性关系,关系的方向是正是负?等零即没有线性关系,但是代表就是互相独立,可能存在非线性关系,需要做独立性检验去筛查

六、赛题EDA

6.1 每个月申购赎回总量的时序图

以下是每个月的申购和赎回的总量的时序图,我们可以观察到通常以周为单位,会有一个波峰或者波谷
在这里插入图片描述
14年的4月到8月,月末时赎回比申购都是高的。
在这里插入图片描述

2014/4~8月的一周分析

在这里插入图片描述
周一至周四是申购比较多的日子,可能是因为可以很快看到收益,而周五六日需要间隔较久的时间。而赎回的时间,工作日基本差不多,周末的赎回数相对较少。可以发现人们在周末中操作的次数比较少。

下面是求中位数后绘制的柱状图,可以说明工作日的操作次数比周末更多。
在这里插入图片描述
不过买出卖入主要还是看收益的和个人的投资习惯,以下是箱线图:
在这里插入图片描述

6.2 分析一周内每一天的的总量差异

对周一到周日做one-hot编码,spearman相关系数计算每日的总量数据关系.

  • 相关性:
    在这里插入图片描述

6.3 观察每个月的申购和赎回总额的分布

每个月的申购总量分布,kdeplot

在这里插入图片描述

每个月的赎回总量分布

在这里插入图片描述
左边有几条线是比较高的,差异非常明显,对应是13年7月-10月的分布

14年5月~14年8月期间每月的分布

在这里插入图片描述
5月和6月的申购量相似,7、8月有差异;

13年7月~13年9月期间每月的分布

在这里插入图片描述
申购量8月与7、9月差异较大;赎回两9月与10月相当接近

6.4 按天分析申购和赎回

这是2014年7月份的每天的流入流出总量情况,每一周的头两天都是申购的比较多,到中期周三周四就倾向于赎回,周末的交易数量相对较少
在这里插入图片描述
我们来看一下2013年9月份的情况,通过这一数据分析特定节日对行为的影响
在这里插入图片描述
对照日期来看,可以发现一些现象,做一些大概的猜测。9月1号是周日,这一天低申购量高赎回量,我猜测是人们希望接下来一周快点查看到收益,所以提早在这一天赎回。11号是赎回的一个峰值,是能在第二周当周查看到收益的最后一天赎回日子。16号是申购峰值,正准备进入中秋节,节日会休市,所以提早买入。有些人希望国庆节前查看收益,所以25号成了赎回的峰值。进入28号之后,就是假期,所以交易操作数量开始减少
在这里插入图片描述
下面这个热力图分析的是2014年4月开始的数据,横坐标是星期数,纵坐标是从4月1号开始的第几周。我们留意到第四周的星期天,即5月4日。是劳动节的补上班时间,人们通常会在上班的日子里做交易操作。第二个关注点是第12周的周三,大约是6月25号左右,通过历史信息,那天有关于对于余额宝不利的消息,所有有可能是导致赎回量上升的原因。
在这里插入图片描述
以上信息说明,有必要分析节假日和特殊日期,会对用户的交易行为有影响。观察某些节日的总量差异
在这里插入图片描述
在这里插入图片描述
很容易看到一些规律,在节日前交易量下降,大家都去玩了,懒得看;节后交易量上升,开始赚钱了,肯定要操作一下,顺便上班摸鱼,哈哈。
在这里插入图片描述

6.5 分析大额交易

通过箱型图找到异常点,有超过2亿的一笔购买量,
在这里插入图片描述
那天为2013年11月4号,我们查看一下1号到9号的交易量,红色为4号,也是最大交易量的那天。
在这里插入图片描述
每日单笔交易量最大的时序图
在这里插入图片描述
每个月大额交易的频次直方图,大于1千万的单笔交易额
在这里插入图片描述

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值