比赛地址在此:点击打开链接
起因:它这个项目是预测未来30天余额宝的总的申购总量和赎回总量,这个是跟余额宝的利率和上海银行间借拆利率有关。然而它30天后的这两个数值并没有给出,因此需要用时间序列来预测。
需要的工具库:
1.numpy
2.pandas
3.statsmodels
4.matplotlib
第一步:读取数据
# 读取数据,并让report_date字段值成为index
date_interest=pd.read_csv(r'../analyed_data/date_interest.csv',index_col='report_date',parse_dates=['report_date'])
columns=date_interest.columns
# 因为有10个属性,所以需要每一个分开来进行预测
for i in range(len(columns)):
print(date_interest.iloc[:,i].describe())
第二步:对数据进行统计分析
主要步骤有:
1.摘要分析
2.画出时序图
具体实现:
1.首先实现绘制时序图的函数
def draw_trend(timeSeries,column):
f=plt.figure(facecolor='white')
timeSeries=timeSeries.diff(3)
timeSeries.plot(color='blue',label='timeSeries')
plt.legend(loc='best')
plt.title(column)
plt.show()
2.绘制时序图
date_interest=pd.read_csv(r'../analyed_data/date_interest.csv',index_col='report_date',parse_dates=['report_date'])
columns=date_interest.columns
for i in range(len(columns)):
data=date_interest.iloc[:,i]
column=columns[i]
# 绘制时序图
draw_trend(data,column)