2023.1.8 第三十八次周报

最新推荐文章于 2024-10-09 00:00:00 发布

孙源峰

最新推荐文章于 2024-10-09 00:00:00 发布

阅读量485

点赞数

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43971717/article/details/128603402

版权

文章介绍了使用时间卷积网络（TCN）和递归神经网络（RNN），如LSTM和GRU，构建的混合深度学习模型来预测混沌时间序列。这种方法在预测自然界的动态系统中表现出色，如天气预报和金融市场。文章还探讨了优化算法，如蚁群算法，以及相关概念如蒙特卡洛和马尔可夫模型。研究证明，这种混合模型能有效提取时间序列特征，提高预测准确性。

摘要由CSDN通过智能技术生成

前言

文献阅读：基于RNN方法的时间卷积网络用于混沌时间序列预测

前言

This week I learned an article that proposed a hybrid deep neural network architecture for chaotic time series forecasting.The hybrid methods used include temporal convolutional networks and recurrent neural network layers that extract low-level features from inputs, such as long short-term memory and gated recurrent units to capture temporal information.In addition, in terms of deep learning, some related content of optimization algorithms was learned.

本周学习了一篇文章，该文提出一种用于混沌时间序列预测的混合深度神经网络架构。使用的混合方法包括从输入中提取低级特征的时间卷积网络和循环神经网络层，例如长短期记忆和门控循环单元以捕获时间信息。除此之外，在深度学习方面，学习了一些优化算法的相关内容。

文献阅读：基于RNN方法的时间卷积网络用于混沌时间序列预测

——Hatice Vildan Dudukcu, Murat Taskiran, Zehra Gulru Cam Taskiran, Tulay Yildirim,
Temporal Convolutional Networks with RNN approach for chaotic time series prediction,
Applied Soft Computing,
Volume 133,
2023,
109945,
ISSN 1568-4946,
https://doi.org/10.1016/j.asoc.2022.109945.

背景

构成科学和工程领域许多系统的混沌时间序列的预测，最近成为研究人员关注的焦点。混沌时间序列预测是使用先前观察到的数据对具有已知初始条件的非线性混沌系统进行未来预测。混沌时间序列预测可以应用于许多领域，如天气预报、金融和股票市场。许多学科致力于解决时间序列预测问题，从提前几天预测天气事件到交易者预测股票的未来。在最近的研究中，已经观察到混合深度神经网络方法在解决时间序列预测问题方面具有更好的性能，并且已经普及，以便从多种方法在解决此类问题方面的优势中受益。该文提出一种用于混沌时间序列预测的混合深度神经网络架构。使用的混合方法包括从输入中提取低级特征的时间卷积网络和循环神经网络层，例如长短期记忆和门控循环单元以捕获时间信息。

主要思路

本研究提出了一种由不同神经网络层、时间卷积神经网络（TCN）与循环神经网络（RNN）组合而成的混合模型。在模拟研究中，使用从Lorenz，Rössler和Lorenz类方程集中获得的三个不同的数据集，以及将21个心律失常患者的心电记录的真实混沌数据集转介到波士顿贝斯以色列医院的心律失常实验室，将所提出的方法与经典ML结构和深度学习方法进行了比较，可以看出所提出的模型实现了最低的预测RMSE值。

方法论

混沌时间序列的预测已成为最近研究人员最感兴趣的话题之一。由于对混沌时间序列的预测，可以预测许多在自然界中表现出动态行为的系统。与经典的循环神经网络相比，混合使用不同的神经网络结构可以为预测问题提供更好的结果，这一事实导致了当前对这些方法的研究。该文提出由TCN、LSTM和GRU层组成的RNN架构TCN来解决混沌时间序列预测问题。该架构由 TCN 和 RNN 层组成。TCN有助于提取短时间内发生的变化特征，而LSTM揭示了长时间内发生的变化的特征，GRU具有有效的非线性拟合能力[48]，[51]。通过这种方式，可以对分布在宽频谱上的所有特征进行建模。在所使用的模型中，TCN提取时间序列的一维空间特征，并将这些特征向量提供给RNN。两个网络一起训练，从而获得两轮特征提取和两轮数据杂质过滤。由于 TCN 已经大大减少了数据杂质，因此尾随 RNN 阶段更有效地工作并更好地提取顺序特征。

本研究提出了一种混合方法，包括时间卷积神经网络和循环神经网络，用于时间序列预测。在检查时间序列预测文献时，值得注意的是，TCN架构在解决大多数预测问题方面比LSTM和GRU表现更好，并且在大多数研究中已经研究了有多少堆叠的TCN层提供了最佳结果。由于TCN的结构，随着层数的增加，卷积层的计算负荷增加，模型并不总是给出更成功的结果。在本研究提出的混合结构中，TCN被用作第一个DNN层，以提取宽感受野中的低级特征。特征的时间信息，即TCN层的输出，在下一步中与RNN层进行处理，以充分利用混沌时间序列。该研究提出了两种不同的混合方法。如图所示，这些方法中的第一种方法是在 TCN 层的输出中使用 LSTM 和密集层进行预测的方法，第二种方法包括 GRU 和具有 TCN 的密集层进行预测。在这项研究的范围内，使用TCN层将数据转换为模式，然后使用RNN层的记忆门将模式传输到未来时间，从而提高了时间序列的预测性能。

图：TCN-RNN的混合方法。

时间卷积网络

时间卷积网络（TCN）是一种深度学习架构，具有用于1D数据的扩展，因果一维卷积层。Lea等人在2016年首次使用这种架构来执行基于视频的动作分割，并且它扩大了计算低级特征的CNN层。TCN 适用于利用 CNN 输出作为输入来捕获时态信息的 RNN 模型。与RNN相比，TCN中的扩张CNN层可以通过使用较大的感受野从更长的时间序列中提取特征。与RNN模型相比，TCN的缺点是计算成本更高，训练时间更长。

图 1 中给出的 TCN 架构由具有扩张卷积层、归一化、激活和辍断层的残差块以及可选的 1 × 1 卷积组成，当残差输入和输出具有不同维度时使用。在膨胀卷积层中，对于每个隐藏向量，根据输入值和滤波器卷积计算相关的隐藏单元值。通过使用计算出的隐藏向量，通过膨胀计算创建下一个隐藏层的向量，并在最后一个膨胀层中获得输出向量。图2给出了使用膨胀层从输入向量输出向量的计算过程。

图 1.TCN 架构

图 2.扩张卷积，膨胀因子d = 1，2，4，使用过滤器尺寸3

递归神经网络

递归神经网络（RNN）架构是文献中广泛用于预测的深度学习结构，由于内部的内存连接，它可以学习并通过过去信息的推断进行预测。尽管经典的RNN结构在预测短期数据中给出了成功的结果，但由于在长期数据问题中遇到的梯度消失问题，它们没有用。已经提出了具有不同记忆连接的RNN结构，例如门控循环单元（GRU）和长短期记忆（LSTM）来解决这个问题。最近，这两种架构比经典的RNN方法更常用于预测问题。

长短期记忆（LSTM）是一种用于深度学习领域的递归神经网络（RNN）架构。与标准的前馈神经网络不同，LSTM具有反馈连接和内存状态，其中存储了网络的先前输出。除了即时数据，它还可以处理数据序列，因此经常用于解决预测问题。在 LSTM 深度学习架构中，如图 3 所示，每个单元接收一个单元状态（ct−1）、隐藏状态（ht−1）和输入（xt）作为时间步长 t，并创建一个单元格状态（ct）和隐藏状态（ht）在单元格输出。在这里，隐藏状态表示单元的输出，单元状态表示包含有关先前时间步长的信息的存储行。

门控循环单元（GRU）是一种简化和改进的LSTM结构类型，具有两个门，称为复位和更新门。单元格在给定时间的输入为 xt前一个单元格的输出为 ht−1.在GRU结构中，通过组合图3所示的细胞状态和隐藏状态来创建单个单元输出，并且过去的信息通过计算的单元输出（ht).

图 3.LSTM 和 GRU 架构比较

优化方法

蚁群算法

蚁群算法简介

蚁群算法（Ant Clony Optimization， ACO）是一种群智能算法，它是由一群无智能或有轻微智能的个体（Agent）通过相互协作而表现出智能行为，从而为求解复杂问题提供了一个新的可能性。蚁群算法最早是由意大利学者Colorni A., Dorigo M. 等于1991年提出。经过20多年的发展，蚁群算法在理论以及应用研究上已经得到巨大的进步。

蚁群算法是一种仿生学算法，是由自然界中蚂蚁觅食的行为而启发的。在自然界中，蚂蚁觅食过程中，蚁群总能够按照寻找到一条从蚁巢和食物源的最优路径。下图显示了这样一个觅食的过程。

在图（a）中，有一群蚂蚁，假如A是蚁巢，E是食物源（反之亦然）。这群蚂蚁将沿着蚁巢和食物源之间的直线路径行驶。假如在A和E之间突然出现了一个障碍物（图（b）），那么，在B点（或D点）的蚂蚁将要做出决策，到底是向左行驶还是向右行驶？由于一开始路上没有前面蚂蚁留下的 信息素（pheromone） ，蚂蚁朝着两个方向行进的概率是相等的。但是当有蚂蚁走过时，它将会在它行进的路上释放出信息素，并且这种信息素会议一定的速率散发掉。信息素是蚂蚁之间交流的工具之一。它后面的蚂蚁通过路上信息素的浓度，做出决策，往左还是往右。很明显，沿着短边的的路径上信息素将会越来越浓（图（c）），从而吸引了越来越多的蚂蚁沿着这条路径行驶。

TSP问题描述

蚁群算法最早用来求解TSP问题，并且表现出了很大的优越性，因为它分布式特性，鲁棒性强并且容易与其它算法结合，但是同时也存在这收敛速度慢，容易陷入局部最优（local optimal）等缺点。

TSP问题（Travel Salesperson Problem，即旅行商问题或者称为中国邮递员问题），是一种NP-hard问题，此类问题用一般的算法是很难得到最优解的，所以一般需要借助一些启发式算法求解，例如遗传算法（GA），蚁群算法（ACO），微粒群算法（PSO）等等。

一个TSP问题可以表达为：求解遍历图G=(V,E,C)，所有的节点一次并且回到起始节点，使得连接这些节点的路径成本最低。

蚁群算法原理

假如蚁群中所有蚂蚁的数量为m，所有城市之间的信息素用矩阵pheromone表示，最短路径为bestLength，最佳路径为bestTour。每只蚂蚁都有自己的内存，内存中用一个禁忌表（Tabu）来存储该蚂蚁已经访问过的城市，表示其在以后的搜索中将不能访问这些城市；还有用另外一个允许访问的城市表（Allowed）来存储它还可以访问的城市；另外还用一个矩阵（Delta）来存储它在一个循环（或者迭代）中给所经过的路径释放的信息素；还有另外一些数据，例如一些控制参数(α，β，ρ，Q)，该蚂蚁行走玩全程的总成本或距离（tourLength），等等。假定算法总共运行MAX_GEN次，运行时间为t。

蚁群算法计算过程如下：

（1）初始化。

（2）为每只蚂蚁选择下一个节点。

（3）更新信息素矩阵。

（4）检查终止条件

（5）输出最优值

粒子群

粒子群算法的由来及思想

粒子群算法最早是由两名美国的科学家基于群鸟觅食，寻找最佳觅食区域的过程所提出来的，作为一种智能算法，PSO模拟的就是最佳决策的过程，鸟群觅食类似于人类的决策过程，想想在你做出选择之前，是不是会受到自己的经验（局部最优）以及周围人的经历（全局最优）的影响？同样的道理，群鸟在觅食的过程当中，每一只鸟的初始位置都处于随机状态，当然也不知道最佳的觅食点在何处，并且每只鸟的飞行方向也是随机的。可以认为，在觅食的初期，鸟群的运动轨迹都是杂乱无章的，随着时间的推移，处于随机位置的鸟类通过群内的相互学习、共享觅食信息，每一只鸟在每一次的觅食过程中结合自己的经验和同伴传送的信息估计目前所处的位置能够找到食物有多大的价值。基于这样的搜索方式，粒子群算法（Particle Swarm Optimization,PSO）应运而生。

PSO算法的主要实现步骤

1.初始化粒子群。包括粒子的初始位置及速度，惯性因子等参数值，粒子数M一般选取20~40个，不过对于一些特殊的难题需要更多的粒子，粒子数量越多，搜索范围就越广，越容易找到全局最优解，但是也会带来更大的计算消耗。

2. 评价各个粒子的初始适应值。

3. 将初始的适应值作为各个粒子的局部最优解，保存各粒子的最优位置。并找到其中的最优值，作为全局最优解的初值，并记录其位置

4. 更新粒子速度及位置

5. 计算更新后粒子的适应值，更新每个粒子的局部最优值以及整个粒子群的全局最优值。

6. 重复4~5直至满足迭代结束条件

蒙特卡洛

蒙特卡罗算法一般分为三个步骤，包括构造随机的概率的过程，从构造随机概率分布中抽样，求解估计量。

1 构造随机的概率过程
对于本身就具有随机性质的问题，要正确描述和模拟这个概率过程。对于本来不是随机性质的确定性问题，比如计算定积分，就必须事先构造一个人为的概率过程了。它的某些参数正好是所要求问题的解，即要将不具有随机性质的问题转化为随机性质的问题。如本例中求圆周率的问题，是一个确定性的问题，需要事先构造一个概率过程，将其转化为随机性问题，即豆子落在圆内的概率，而π就是所要求的解。

2 从已知概率分布抽样
由于各种概率模型都可以看作是由各种各样的概率分布构成的，因此产生已知概率分布的随机变量，就成为实现蒙特卡罗方法模拟实验的基本手段。如本例中采用的就是最简单、最基本的（0，1）上的均匀分布，而随机数是我们实现蒙特卡罗模拟的基本工具。

3 求解估计量
实现模拟实验后，要确定一个随机变量，作为所要求问题的解，即无偏估计。建立估计量，相当于对实验结果进行考察，从而得到问题的解。如求出的近似π就认为是一种无偏估计。

马尔可夫

马尔可夫预测的性质及运用
对事件的全面预测，不仅要能够指出事件发生的各种可能结果，而且还必须给出每一种结果出现的概率，说明被预测的事件在预测期内出现每一种结果的可能性程度。这就是关于事件发生的概率预测。
马尔可夫（Markov)预测法，就是一种关于事件发生的概率预测方法。它是根据事件的目前状况来预测其将来各个时刻（或时期)变动状况的一种预测方法。马尔可夫预测法是地理预测研究中重要的预测方法之一。