老师给研究思路后,看到本领域有相关论文是用类似组合模型对时间序列进行预报,因其论文内对训练集和测试集的划分不是很明确,一直有这个疑问:是否存在数据泄漏?于是首先采用了先划分训练集和测试集,然后分别对训练集和测试集进行分解,再训练模型进行预报,结果不尽如人意,误差极大甚至不如单独的LSTM模型或是BP模型;之后又尝试了对整个数据集进行分解,然后再划分训练集和测试集,结果精度出乎意料的高。针对这个问题,查阅了一些博主的分析,比如这位博主写的。https://blog.csdn.net/JasonDean/article/details/122396431?spm=1001.2014.3001.8078#comments_21105533
之后我不确定已发出的论文在训练集、测试集划分和模态分解的先后顺序上是否有问题,和老师进行了讨论,老师的意思差不多是水出来一篇没太大问题,但我不会让你这么写,于是放弃了,转而使用ARIMA+LSTM分别针对线性主要成分以及非线性残差做预测,效果还不错。
最近在写文献综述时又考虑到这个问题,突然想到,先不谈他划分与分解的问题,还存在其他的数据泄漏可能。
我们做时间序列预测,通常采用前m个数据来预测后n个数据,其训练集重构为监督学习的形式就是:
X Y
t-1,t-2,... t,t+1,...
此时训练集并非为原始数据集,X、Y应由分解后的某个imf分量重构得到,t-1,t-2,...时刻的X、Y序列必然包含原始数据集t,t+1,...时刻的信息,个人认为这种模态分解法不适合应用于时间序列的预测。
权当写给自己的笔记了