最近在做一个时间序列问题,遇到了一个分析每条线路在指定4天的运输量计算问题。通过筛选可见问题如下图:
df_test[df_test.zdtseq.isin(['1000023422','1000026402','1000031053'])]
我们可以发现两条线路都有完整4天的数据(0913-0916),但是1000031053线路只有1天的数据
这可能是由于线路在这些日期运输量为0而故意忽略了,但是在进行时间序列处理的时候,有比较补填缺失的日期数据。
那么如何补填缺失的数据呢?
显然,日期都是以天为单位的,不存在升、降采样的问题。
那么,思考之后我觉得可以用笛卡尔积生成一个完成线路完整日期的dataframe。方法如下:
import itertools
dat = []
for x in itertools.product(['1000023422','1000026402','1000031053'],['20190913','20190914','20190915','20190916']):
dat.append(x)
之后