Deep learning for prognostics and health management:State of the art,challenges,and opportunities 翻译

最新推荐文章于 2025-02-23 22:53:52 发布

要好好学习丫

最新推荐文章于 2025-02-23 22:53:52 发布

阅读量4.4k

点赞数 5

原文链接：https://doi.org/10.1016/j.measurement.2020.107929

版权

预测和健康管理的深度学习：现状、挑战和机遇
摘要
提高工程系统的可靠性是航空航天、核能和水偏流等工程领域中许多应用的关键问题。这就需要高效有效的系统健康监测方法，包括处理和分析大量的机械数据以检测异常，并进行诊断和预测。近年来，深度学习是一个快速发展的领域，由于其能够从原始数据中挖掘复杂的表示，因此在解释振动、声发射和压力等状态监测信号方面，深度学习已显示出很有希望的结果。本文系统地回顾了最新的基于深度学习的PHM框架。它强调了该领域的最新趋势，并介绍了最先进的深层神经网络在系统健康管理方面的益处和潜力。此外，还讨论了现有技术的局限性和挑战，为今后的研究提供了机遇。
1介绍
预测与健康管理（PHM）是克服传统可靠性分析局限性的关键技术。PHM的重点是利用从工程系统中获取的感官信号来监测健康状况、检测异常、诊断故障，更重要的是，预测系统在其寿命期内的剩余使用寿命（RUL）。此运行状况信息提供了潜在故障的提前警告，并提供了实施措施的机会之窗，以通过减少系统停机时间和维护成本来避免灾难性故障。
在传统的维修模式中，机器是通过基于故障或基于时间的策略进行调查和维护的。这两种策略有两个主要缺点：（i）成本极高；和（ii）其流程可能对员工和其他资产构成安全风险。反之亦然。众所周知，PHM对业主、运营商和社会都有很强的经济效益。在基于PHM的维护策略中，工程师预测设备可能发生故障的时间，然后进行维护以保持机器的运行。现代系统非常复杂，由许多交互元件和电子元件构成，这突出了系统可靠性的重要性。任何部件的故障都将导致系统的灾难性故障。一个可行的PHM系统框架可以对组件/子系统的早期故障进行早期检测和隔离。一个有效的PHM模型的结果提供了一个工具来监控故障的进展，并帮助制定评估决策和维护计划。
大量数据的可用性和指数级增长的计算能力为工业界和学术界提供了重要的机会来开发先进的数据驱动框架，以确定模式、分类故障和评估系统退化趋势。许多机器学习方法被使用，包括支持向量机[1]、随机森林[2]、主成分分析[3]、粒子滤波[4]、隐马尔可夫模型[5]等。然而，在诊断和预测这些问题之前，需要专家手动选择有意义的知识和经验。
随着智能传感、通信技术和复杂工程系统的发展，来自各种资源的大量数据被快速生成并实时收集，其中包含了有关系统退化和健康状况的有用信息。多维异构数据流的激增严重阻碍了传统算法的性能。因此，更先进的分析工具可以自适应地测量隐藏流的特征。

深度学习作为人工智能的一个突破，已经被医学图像分析、视觉理解、医疗保健、计算机视觉、推荐系统、自然语言处理、自动语音识别等各个领域所接受。它可以通过深层神经网络自动处理来自原始数据的高度非线性和复杂的特征提取，消除了对领域知识和人工特征工程的依赖。深度学习可以自动学习大规模数据的分层表示，这使得它成为PHM应用的有效工具，特别是在大容量和多维工业数据存在的情况下。传统的数据驱动框架需要手工进行特征提取和适当的特征选择过程，这在很大程度上依赖于专业人员的专业知识和信号处理知识。传统的框架不能实时更新，需要大量的工作来处理大规模的数据集。相比之下，深度学习算法可以将特征提取、特征选择和分类/回归等PHM任务集成到一个端到端的体系结构中，并以分层的方式联合优化所有任务。
到目前为止，已经发表了一些关于深度学习和PHM的评论论文[6-9]。但是，它们要么是特定于组件（或系统）的，要么没有更新为最新的深度学习技术。这是一个快速发展的领域，每隔几个月就会开发出完善的解决方案和先进的模型。有必要提出更多的最新评论，以涵盖PHM范式的最新进展和建议的解决方案。在这篇论文中，我们回顾了已开发和明确部署用于工程系统故障诊断和RUL预测的各种深层神经网络。第2节概述了常见的深度学习体系结构，然后在第3节中重新回顾了传统的数据驱动PHM基础知识。第4节概述了常见PHM问题的深度学习工作。我们在第五节中总结了可用的硬件和计算资源，最后在第六节中总结了本文面临的挑战和未来的研究方向。
本文的主要贡献归纳如下：
-我们将现有的深度学习模型分为三类：区分型、生成型和混合型，并用实例说明这些模型，特别是生成型模型如何有效地解决现有的挑战。
-本文介绍了迁移学习和领域适应技术在PHM中的应用，并讨论了它们的特点。
-我们提供数据集、硬件、软件和云计算方面的可用资源的全面参考。
-我们讨论了最重要的挑战，如不平衡的类、未标记的数据、不足的数据和域转移，并解释了如何利用各种深度学习技术来缓解这些问题。
2深度神经网络体系结构概述
深层神经网络的灵感来自人脑的层次结构，因为它们首先学习更简单的特征，然后对其进行处理以表示更抽象的特征。深度神经网络（DNN）的一般结构是由输入层、多个隐层和输出层组成。在图1所示的多层感知器（MLP）网络中，作为最简单的深层结构形式，只要输入数据被输入，输出就与模型的后续层一起直接计算。在中间隐藏层的每个神经元中，前一层输出的有偏加权和被放入一个非线性函数aka激活函数中，以产生该神经元的输出。DL中表示学习的层次性使得它能够在大量的数据中找到期望的但抽象的潜在关联和模式。在这一部分中，我们将简要讨论深度学习的基本概念和文献中常用于PHM的典型深层结构。表1中定义了一些最常用的术语。
在这里插入图片描述
2.1. 受限玻耳兹曼机
受限Boltzmann机器（rbm）是由nx可见（输入）单元和nh隐藏单元组成的无向二部图形模型，不允许层内连接，见图1。RBMs通常表现为生成模型，试图估计输入数据的概率分布。换句话说，它通过随机处理单元学习输入数据的重构版本。从监督的角度来看，RBM通常充当其他模型执行分类任务的预处理器，也可以是一个自包含的分类器[12]。Hinton[13]提供了培训RBMs的实用指南。在接下来的两部分中，我们简要介绍了两种基于RBM的生成dnn，即deep-confidence网络和deep-Boltzmann机器。
在这里插入图片描述

2.1.1、深层置信网络
深度置信网络是第一个成功的深网络。它们由多个rbm叠加而成，并模拟观测到的联合分布。如图1所示，DBN的顶层是非定向的，并且其他层中的连接是自顶向下定向的。DBN通过两个步骤进行培训：预训练步骤和微调步骤。一种贪婪的分层无监督算法通过对比发散来进行预训练[14]。一旦通过预训练初始化了网络，就可以通过监督的上下过程用标记的数据对参数进行微调[15]。
2.2、自编码
自动编码器是无监督的网络，在两个阶段的过程中，它们被训练在输出层x上重建输入x：编码通过特征提取函数学习数据h的隐藏表示，解码将h映射回输入空间以获得数据的重建（图1）。与RBMs类似，自动编码器可以堆叠在一个称为stacked autoencoder（SAE）的深层配置中，它将下面层的潜在表示作为输入转发到下一层，并且以贪婪的分层方式进行训练。标准自动编码器的一个显著缺点是倾向于学习身份函数而不提取关于数据的有意义的信息，特别是对于隐藏层的维数等于或大于输入的过完备情况，即nh>= nx。引入替代变量，通过正则化或通过生成性建模方法训练自动编码器来提供解决方案。第2.2.1–2.2.4节讨论了由此产生的变体。
2.2.1、稀疏自动编码器
稀疏自动编码器利用数据的内部结构，通过在代价函数中添加Kullback-Leibler（KL）散度项，在激活隐藏单元时加入稀疏约束[19]。稀疏表示通过增加不同类别容易分离的可能性来提高分类任务的性能[20]。
2.2.2. 去噪自动编码器
去噪自动编码器（DAE）是另一种正则化网络，用于防止模型学习平凡的身份解。DAE没有给代价函数增加惩罚，而是采用噪声破坏的数据x~来重构输入x，并通过改变代价函数中的重建误差项来学习有意义的信息。输入首先被二进制或高斯噪声破坏，然后馈入隐藏层。因此，dae必须通过捕获输入数据分布来撤消损坏过程，而不是简单地学习标识。学习的表示对于轻微的扰动是鲁棒的[21]。
2.2.3. 收缩式自动编码器
Rifai等人[22]提出的压缩式自动编码器（CAE）将输入的潜在空间表示的Jacobian矩阵的Frobenius范数加入到标准重建损失中。收缩式自编码器通过惩罚特征的敏感度来鼓励表示的鲁棒性，而不是正则化重建，与其他正则化模型相比，重建具有更好的性能。
2.2.4、变分自动编码器
Kingma等人[23]提出的变分自动编码器（VAE）是一种有向生成模型，它使用变分推理框架来近似输入数据分布p（x），并且可以用基于梯度的方法进行训练[24]。VAE是一种很有吸引力的深层模型，因为它弥补了神经网络和概率模型之间的差距，并使设计大型复杂数据集的生成模型成为可能。vae有一个编码器/解码器体系结构，尽管这种结构背后的数学原理与其他著名的自动编码器几乎没有关系。在[25]中，作者提出了一种训练VAE的重参数化技巧。
2.3、卷积神经网络
卷积神经网络（CNNs）是一种深度判别网络，在处理具有网格拓扑结构的数据方面取得了良好的效果。CNN与标准神经网络的主要区别在于，CNN受益于参数共享，这使得网络能够在不同的位置寻找特定的特征[24]。图1所示为典型的二维CNN的示意图，其特征是三层，即卷积层、池层和完全连接层。卷积层通过在输入上滑动滤波器（内核）来对输入数据执行卷积操作，以生成特征映射。池层的目的是降低特征图的维数，从而减少了参数的数目，增加了平移不变性，从而提高了对噪声的鲁棒性[26]。最后的完全连接层将数据映射到1D特征向量，该特征向量可以被分类器[27]使用，也可以作为进一步处理的特征向量[27]。
2.4、循环神经网络
递归神经网络（RNNs）包含反馈回路来记忆前单元的信息，最适合于自然语言和时间序列数据等序列数据。在训练过程中，基于时刻t处的当前输入xt的激活和先前的隐藏状态ht1来顺序更新隐藏单元ht。RNN能够从时间序列和序列数据中获取长期的时间依赖关系，但是它们面临着消失或爆炸的梯度问题，即在梯度传播回初始层的过程中，小的梯度会收缩并最终消失。另一方面，如果梯度大于1，它们会通过多次矩阵乘法累积，导致模型崩溃[28]。门控递归单元（GRU）和长短期记忆（LSTM）细胞是RNN的流行变体，它们试图缓解上述问题[24]，见图2。双向递归网络（BRNN），如图1所示，可以通过在正向和反向两个方向对数据进行排序来增加模型容量。
在这里插入图片描述

2.5、生成对抗网络
Goodfellow等人[30]提出的生成性对抗网络（Generative atteriral networks，GANs）是由两个神经网络组成的强大的生成模型：鉴别器和生成器。作为模型生成部分的生成器G（z）学习输入的分布并创建假数据，而作为对抗部分的鉴别器D（x）接收假数据和真实数据并评估它们的真实性，如图1所示。训练过程类似于博弈论中判别者和生成者之间的最小-最大两人博弈，试图达到博弈者的纳什均衡。GANs产生了吸引人的结果，但它们通常很难训练，并且会出现发散行为、模式崩溃和消失梯度问题[31,32]。原始的GAN模型使用完全连接的网络作为发生器和鉴别器。然而，许多最近的研究开发了使用AEs、CNNs和RNNs架构的变体。关于各种GAN结构的更多信息，读者可以参考[33]。
2.6、深层神经网络优化
人工神经网络作为一种通用的函数逼近器，被设计用来学习任何函数。深层网络的多层体系结构使其能够处理复杂的非线性可分离问题。然而，深度学习的性能高度依赖于模型和训练因素，如激活函数选择、权值初始化、超参数（学习速率、每层的层数和神经元数目等）、优化和正则化方法。
激活函数是加入到人工神经单元（即神经元，图3）中的非线性函数，它接收来自前一层输入的偏差项和加权和，并让深层神经网络学习前向传播和反向传播算法的强大表示。表2总结了深层神经网络中常用的激活函数。虽然选择适当的功能取决于问题的类型和网络的深度，但建议从ReLu开始隐藏层，如果ReLu性能不好，则转到替代方案。
在这里插入图片描述

优化算法在训练中起着至关重要的作用。梯度下降法是一种广泛应用于训练的一阶优化技术。它比牛顿法和共轭梯度法等二阶方法收敛速度慢。传统的梯度下降技术贯穿整个训练数据集，对模型参数或权值进行一次更新。因此，训练一个非常大的数据集既慢又耗时。为了解决这个问题，通常的做法是基于一个或一个子集的训练样本进行更新[34]，这称为随机梯度下降（SGD）或小批量梯度下降。
尽管有有效的训练过程，SGD仍然面临着诸如正确选择学习速率、处理数据稀疏性、最小化高度非凸误差函数以及避免次优局部极小等挑战。针对SGD的挑战，提出了各种算法，见表3。
在这里插入图片描述

深度学习环境中的另一个关键问题是训练在训练和测试数据集上都表现良好的模型。在这种情况下，正则化被定义为“我们对学习算法所做的任何修改，其目的是减少其泛化误差，而不是其训练误差[24]。最常见的正则化算法的摘要如表4所示。
在这里插入图片描述
三、预测与健康管理回顾
PHM为系统健康评估和可靠性改进提供了广泛的工具，涉及多个不同方面的子区域。本节简要概述了标准数据驱动的PHM框架，包括组成部分、性能评估指标和现有数据集，以便读者可以使用它们进行模型评估。
3.1、传统预测与健康管理循环模块
如图4所示，PHM主要被认为是多个任务的组合，以降低设备的总寿命周期成本。以下段落定义了术语和常用技术：
数据采集模块包括状态监测传感器（如加速度计、声发射传感器、温度计等）、数据存储和传输装置，这些装置提供来自机械的初始监测信息。
PHM中的特征提取主要是指在时域、频域和时频域内的信号处理算法，将原始测量数据转换为系统行为的信息特征。统计时间序列特征，如均方根、峰度、峰值因子、偏度和频域特征（包括频谱、包络和倒谱分析）广泛应用于平稳信号的时频分析，如短时傅立叶变换（STFT）、经验模式分解（EMD）、小波包变换（WPT），另一方面，HilbertHuang变换（HHT）等在非平稳信号分析中取得了较好的结果[36–38]。
特征选择算法通过过滤器、包装器或嵌入式方法选择最佳的特征子集，去除不相关和冗余的特征[39]。此外，主成分分析（PCA）、线性判别分析（LDA）和核主成分分析与核主成分分析（KPCA）等降维技术已被广泛采用，以生成新的低维特征子集，同时保留原始特征的直观信息[40,41]。
在系统健康管理学科中，异常是指系统行为与正常情况不同的时间实例，其原因可能在于或可能不在于初始故障或故障。经典的异常检测方法，如基于密度的技术、支持向量机、隐马尔可夫模型、贝叶斯网络、集成技术等，已广泛应用于系统健康评估领域[42-44]。
诊断是异常检测后的关键步骤，通过分析退化的严重程度来确定系统的健康状态。经典的有监督机器学习算法，如支持向量机、随机森林、k近邻（KNN）、人工神经网络（ANN）等，已经在标记数据集上训练，以准确地分类故障类型[1,2,45]。
预测是指检测设备的早期故障和相关RUL，以评估其可靠性，并为维修操作提供及时的决策支持。许多数据驱动的方法已经被用于处理PHM周期中的预测，包括ANN、HMMs、粒子滤波、卡尔曼滤波变量和回归方法[5,46,47]。
决策支持是PHM的“健康管理”部分，它使用诊断和预测的输出来做出及时、适当的维护和后勤决策[48]。数学规划、马尔可夫决策过程和强化学习（RL）技术已被广泛应用于寻找最佳维修行动和最佳应用时间[49-51]。
3.2、绩效指标
采用多种指标来评价PHM模型的预测性能。此外，根据模型的复杂性，许多研究者提出了新的评估RUL预测的方法。表5总结了最常用的指标列表。读者可以参考上一栏中的参考资料了解更多信息。
在这里插入图片描述
3.3. 公共数据集
尽管最近在数据采集和传感器技术方面取得了进展，但为数据驱动方法获取足够高质量的数据仍然是困难和挑战。长期的劣化过程和使用中的机械故障使得收集高分辨率的运行到故障数据既费时又不切实际。此外，在机器停用期间收集的测量数据通常不能反映实际的工作情况。为了促进PHM模型开发，表6给出了用于诊断和预测的公共数据集。
在这里插入图片描述
4深度学习与系统健康管理
在这一部分中，我们主要讨论现有的基于DL的PHM任务体系结构，从简要描述研究选择标准入手，分析研究现状和研究趋势。
4.1、调查方法
作者使用关键字“故障检测”或“故障诊断”或“预测”或“状态监测”或“剩余使用寿命”以及“深度学习”或特殊的深层网络。搜索在2013年至2019年9月期间检索到227篇文章。我们仔细筛选了文章，消除了重复研究。采用以下排除标准后，共保留并分析了137项研究：

EC1.书籍、研究生论文、书信和专利都不考虑评审
EC2.会议条目和预印本论文除外，除非那些被高度引用且未在任何期刊上发表。
EC3.非初级研究，如文献调查文章不包括在内。 EC4.只有独特的研究被分析。对于有微小变化的重复研究，不包括研究的其他副本。
EC5.不报告性能度量结果的研究被排除在外。 EC6.不包含验证或实验验证的研究不考虑进行评审。
图5显示了PHM研究人员中各种深度学习架构的流行程度，以及考虑到类别的多样性，每年出版物的分布情况。近年来，相关论文发表量有了显著增长。该图不包括4.11.1中讨论的预先训练的修改后的CNN架构。

4.2、文献计量分析
为了进一步了解论文的结构，本文选取127篇研究论文中的相关关键词进行共词分析。图6是在VOSviewer工具[74]中可视化的前29个频繁出现的关键字之间的共现关系的投影。关键词包括知名系统类型（电池、轴承、变速箱、转向架、航空发动机等）、PHM任务（故障检测、故障诊断、预测、RUL估计等）、深层神经网络类别（CNN、RNN、GAN等）、数据类型（振动、电流信号和声发射），以及机器学习领域的一些学习问题（转移学习、领域适应和无监督学习）。每个关键字都由一个彩色圆圈表示。圆圈的大小表明了这个词在文学中出现的分量。另外，节点间链接的权重表示连接关键字的共现程度。

VOSviewr使用一种基于模块化的聚类技术，将最常见的关键词组合在同一个集群中。我们合并了较小的集群以消除不必要的细节。最终的地图由三个簇（红色、绿色和蓝色）标识，所有具有相同颜色的点都是同一个簇的成员。我们已经找到了每个关键字的中心度，以找到每个聚类中最具代表性的关键字：故障检测（蓝色）、故障诊断（红色）和预测（绿色）。观察这些关键词和每个集群中的术语，可以让我们在可用的公共数据集的基础上，看到各种任务和深层神经网络之间的相互联系。例如，乍一看，人们可以说故障诊断比预测学研究得多。此外，轴承似乎是PHM研究最多的部件，因为它们是工程系统的关键部件。另一个原因在于滚动轴承公共数据集的可用性。此外，绿色的簇节点表示“预测”、“RUL估计”、“RNN”和“电池”等术语的接近程度，表明电池预测的重要性。此外，正如预期和将要讨论的，rnn是RUL预测中最常用的网络。
4.3、PHM中深度学习的分类
近年来，利用深度学习进行表征学习、时间序列分类和预测的研究越来越受到重视。DNN模型主要分为三类：生成模型、判别模型和混合模型，如图7所示。
生成模型定义了输入变量和目标变量的联合概率分布，并可用于根据数据的基本分布生成新的实例。这个类中的模型包括VAEs、DBMs、DBNs和GANs。判别模型估计条件概率分布P（y | x），其中y和x分别是目标变量（离散类或标量预测）和观测变量。判别模型不试图对变量的潜在分布进行建模，只执行从输入到所需目标的映射[75]。CNN、RNN和自动编码器（不包括VAE）是PHM中常见的鉴别模型。
在本文中，混合模型是指将各种dnn（生成和/或区分）结合在一起的深层结构。在这些模型中，生成部分通过提供良好的初始化或通过降低模型的总体复杂性来帮助优化中的区分[76]。这些架构可以利用区分模型和生成模型的优点。以下小节将讨论上述模型在PHM中的应用。除了图7所示的网络之外，一些研究提出了具有生成和/或区分组件的新DNN架构。这些模型在第4.10节中作为紧急模型进行讨论。
在这里插入图片描述

4.4. 深度置信网络
深度置信网络是第一个成功训练的深层网络，也是第一个应用于PHM领域的深层模型。Tamilselvan和Wang[77]开发了一个基于DBN的多感官故障诊断框架，并利用DBN的层次结构来处理异构的感官信号。类似地，Tran等人[78]使用带有高斯伯努利单元的DBN分类器对往复式压缩机阀门进行故障诊断。他们提取异质信号的时域和频域特征，并应用广义判别分析（GDA）来降低特征空间的维数。
尽管上述研究比传统模型有了实质性的改进，但模型的超参数如层数、层数和学习率等都是随机选取的，这大大降低了模型的效率。为了解决这个问题，Shao等人[79]采用粒子群优化（PSO）算法来确定滚动轴承故障诊断的最优超参数。在他们最近的研究中，Tang等人[80]提出了一种具有Nesterov动量的自适应学习率，以加速网络训练并提高性能。
深度置信网络可以作为中间特征提取器。Yuan等人[81]训练了两个DBN分别学习振动和声发射信号的中间表示。他们使用小波包变换（WPT）特征作为DBNs的输入。此外，Liang等人[82]提出了一种新的原始信号分割方法，即Grassmann manifoldangular central Gaussian distribution来捕获故障脉冲信息。采用DBN方法降低特征空间维数，提取出更具区分性的特征。文献[83]采用了一种新的振动成像方法来捕捉转子系统不同方向的故障信息。采用无监督的方法对振动图像的深度信念网络进行预训练，实现了高层次、可伸缩的特征提取。Deutsch和He[57]利用DBN预测滚动轴承的剩余使用寿命，以用于预测应用。
还有其他研究探讨了DBN在系统健康评估中的应用[84–89]，虽然大多数研究仍然需要手工制作的功能和手动信号处理专业知识，但很少有研究将DBN用作原始输入数据的端到端解决方案，并获得了比较性能[90–92]。
4.5、深玻尔兹曼机器
尽管深玻耳兹曼机器在捕捉数据的复杂表示方面非常强大，特别是在非平稳信号和具有不同模式的多感官数据的情况下，但是它们的推理过程缓慢且成本高昂，并且作者发现将DBMs应用于PHM的研究非常有限。Li等人[93]采用分离高斯-伯努利DBMs（GDBMs）从三种模态中提取振动信号的高层特征，用于齿轮箱故障诊断。采用支持向量机对故障模式进行融合，得到有效的故障分类结果，并对模型进行了验证。在[94]中，作者应用数据库管理系统来学习声发射和振动信号的表示，以用于齿轮箱的故障诊断。Hu等人[95]提出了一种协同方法来处理工业故障诊断。DBM将原始输入转换为二进制特征向量，并使用林集合来连接特征。他们利用滑动窗口来截断特征向量，然后用一个完全随机的森林来进行分类。在最近的工作中，Wang等人[96]利用DBM对智能制造中的离心压缩机进行预测。通过DBM的高斯神经元对原始振动信号进行归一化处理，该模型可以学习输入序列的复杂表示。粒子群优化算法搜索最优超参数，混合改进的Liu-Storey共轭梯度加速了模型的预训练步骤。
4.6. 深度自动编码器
深度自编码器是继卷积神经网络之后，PHM应用中研究最多的深度模型。最早的深度声发射模型，特别是堆叠多个自动编码器来学习更复杂的数据表示。例如，Zhou等人[97]利用SAE来解决轴承故障分类问题。邵等[98]采用了一种改进的基于最大相关熵的损失函数的深度声发射方法对齿轮箱和电力机车滚动轴承进行故障诊断。改进的损失函数对非平稳噪声具有更强的鲁棒性，增强了特征学习的能力。采用人工鱼群算法（AFSA）对超参数进行优化。在他们的另一项研究[53]中，他们提出了滚动轴承智能故障诊断的集成深声发射模型。首先，将原始振动信号输入到具有不同激活函数的多个ssae中，由Softmax分类器进行故障诊断。提出了一种新的基于多数投票的组合策略，确定了单个ssae诊断精度的阈值，并利用集成模型对训练样本进行特征学习。此外，在[53]中，他们提出了一种新的深度自动编码器模型，该模型具有高斯小波激活函数和原始振动信号。
正则化的自编码器增强了模型的泛化能力，并提供了更稳健的表示。在PHM应用中，已经有许多研究利用了自动编码器的正则化变体。例如，文献[99]中描述的滚动轴承故障诊断框架利用改进的范数惩罚和新的预处理方法，使改进的DAE受益。在基于振动的故障诊断中，获取测量数据的时间相关性是一项具有挑战性的任务。为了解决这个问题，Jiang等人[100]提出了一种基于深度DAE的风机故障检测模型。首先，将滑动窗口应用于多传感器时间序列数据，在很短的时间内捕捉当前和过去的时间信息。然后，通过DAE对处理后的数据进行稳健的多元重构。
以上研究大多是基于平稳运行条件的假设，然而实际情况下机械的工作状态是变化的，信号是非平稳的，这使得故障特征的提取具有挑战性。罗等[101]为数控机床的早期故障检测建立了SSAE。利用滑动框架将振动信号分成固定长度的小样本，并标记为脉冲和非脉冲两类。训练SSAE模型以确定数据的脉冲响应。利用脉冲响应数据，采用状态空间模型对机械系统进行动态估计，构造了基于动态特性相似性的健康指标。在[102]中，作者利用SSAE对出现新故障的齿轮箱进行故障诊断。与标准的SSAE模型相比，提出的SSAE框架为偏离高斯分布的样本分配新的标签，获得了更高的精确度。Liu等人[103]利用SAE对旋转机械进行基于多传感器融合的故障诊断。
Wang等[104]采用了一种批量归一化优化方法，减少了SSAE隐层间的内协变量转移问题，取得了优于原始SSAE模型的结果。Sun等人[105]将测量数据较少的压缩传感思想用于基于SSAE的滚动轴承故障诊断。Yu[106]提出了一种用于齿轮箱故障诊断的具有负相关学习的选择性叠加去噪自编码器网络（selective SDAE NCL）。在他们的模型中，通过NCL对SDAE组件进行集成监督的微调被用来解释数据的不同方面。PSO算法产生SDAE组件的最佳子集，如图8所示。Jian等人[107]针对风力涡轮机故障诊断，Lu等人[108]和Guo等人[109]针对滚动轴承的故障诊断，Shi等人[110]针对工具状态监测，Zhang等人[111]针对固体氧化物燃料电池系统的故障诊断，使用堆叠稀疏去噪自动编码器（SSDAE）进行了其他PHM研究。
尽管DAE在故障诊断应用中的自动特征提取已经取得了很大的成就，但是如何选择最佳的损坏程度仍然是一个挑战。一些作者使用压缩式自动编码器（CAE）来实现更方便、更健壮的表示学习。例如，Shen等人[112]提出了一种基于CAE的齿轮箱和滚动轴承故障诊断问题的自动特征学习模型。输入为频域数据，与其他正则化自编码器相比，它们在不同信噪比下可以获得更高的相关系数。
压缩式自动编码器会降低特征的敏感度，并鼓励表示的鲁棒性，而不是重建的鲁棒性，就像去噪的自动编码器一样。因此，它们可以提供更好的性能和通用性。然而，CAE不能探测输入的大扰动。邵等[113]结合DAE和CAE的特点，提出了一种增强的特征学习方法，用于电力机车轴承故障诊断。原始的振动信号被送入DAE中以提取低级故障特征。然后利用多个cae的叠加进行更高层次的鲁棒特征提取。类似地，在[114]中，作者利用基于DAE和CAE的混合自动编码器表示学习，从原始振动信号中诊断滚动轴承。
尽管自编码的生成变体，即变分自编码（VAE）在复杂的潜在表示学习中有着显著的应用，但很少有研究将VAE应用于PHM领域。Ping等人[115]利用VAE来提取复杂旋转机械的劣化特征。他们提出用对数正态分布的潜变量代替标准正态单位来解决退化数据的异方差问题。在另一项研究[116]中，作者利用deep-VAE对滚动轴承使用原始振动测量进行故障诊断。Zhan等人[117]将VAE集成到基于半监督学习的多关联层网络中，用于行星齿轮箱故障诊断。他们应用小波包变换来捕捉振动信号的脉冲分量，并用标记和未标记样本组合训练模型。采用条件VAE（CVAE）网络[118]对噪声环境下的行星齿轮箱进行故障诊断。与标准的VAE相比，CVAE对一些随机变量的特征进行了建模，实现了更好的重构。尽管有上述成功的例子，在健康监测应用中仍然有利用VAE的空间，特别是在实际工业机械中处理异构和不完整的数据[119]。
4.7、卷积神经网络
如图5所示，卷积神经网络（CNN）是PHM领域应用最多的深层模型。Chen等人[120]采用一维CNN进行齿轮箱故障识别。他们将振动信号的时域和频域特征输入模型，并进行一些参数调整以找到CNN的最佳结构。郭等[121]展示了一种基于CNN的滚动轴承健康指标（HI）构建方法。提出了一种新的异常区域去除技术，以减少趋势毛刺效应，提高预测性能。当训练集中的HIs具有不同的范围尺度时，新的HI评价指标称为尺度相似性舒适度，以选择合适的失效阈值。同样，Belmiloud等人[122]将深卷积神经网络应用于滚动轴承的RUL估计。许多研究使用一维CNN对滚动轴承进行故障分类[123–128]。Jing等人[129]利用一维CNN对行星齿轮箱进行多感官故障诊断。他们利用四种类型的信号，包括声音、振动、电流和瞬时角速度信号，将数据级、特征级和决策级融合集成到一个优化的深度CNN中。在[130]中，作者利用时域和频域中的原始声信号进行齿轮故障诊断，并利用多通道CNN融合来自不同麦克风的信息。Liu等人[131]利用关节损失CNN模型对滚动轴承进行了同时诊断和预后。Zhang等人[132]提出了一种基于CNN的残差块故障诊断框架。模型中的标识跳过连接允许在整个网络中直接传播信息，并增强高级特征提取。
在这里插入图片描述

卷积神经网络最初是为图像分析任务而设计的。因此，不同的研究人员研究了预处理方法，并将时间序列数据转换为系统健康评估的二维输入，见表7。一些研究使用时频分析方法将振动信号转换为图像输入。Han等人[133]采用多级小波包矩阵作为多个具有共享参数的并行cnn的输入，用于齿轮箱故障诊断。多层次小波包矩阵融合了多分辨率的非平稳振动信息，消除了小波包变换中的电平选择需要。Verstraete等人[134]提出了一种用于滚动轴承故障诊断的新型CNN架构，并将原始信号的三种不同时频表示作为输入图像：短时傅里叶变换（STFT）的频谱图、连续小波变换（CWT）的标度图和Hilbert Huang，对模型的有效性进行了比较转换（HHT）图。建议在两个卷积层之间没有两个卷积层的网络池栈。对于标度图图像，该模型实现了与标准CNN相同的精度，具有明显较少的可学习参数和计算成本，但优于HHT图像和光谱图的替代CNN模型。在[135]中，Yoo和Baek演示了基于Morlet的CWT表示法，将振动信号输入CNN网络，构建HI，用于滚动轴承的剩余使用寿命估计。虽然目前还没有一种确定各种PHM情况下最佳小波的方法，但Morlet小波对机械设备故障非平稳信号的脉冲分量具有很高的相似性和有效性。Zhu等[56]利用二值插值的方法对CWT图像进行降维处理，以解决方位RUL估计问题。此外，他们还利用前一个卷积层和前一个池化层的特征，利用一个同步保持全局和局部特征的多尺度卷积神经网络（MSCNN）进行预测。通过与其他CNN模型的比较研究，验证了该方法的有效性。
还有其他一些研究利用CNN中的多尺度层来捕获数据中更多的抽象层次。在[139]中，丁和何采用相空间重构（PSR）技术，将小波包（WP）的相空间图像称为小波包图像（WPI）。与MSCNN相结合，所提出的多尺度特征学习方法保留了WP节点的能量波动，从而提供了在波动负载条件下的鲁棒故障诊断框架，如图9所示。受CNNs[145]和动态路由胶囊网[146]的启发，zu等人[136]使用了一种新颖的具有起始块的深网，以解决标准cnn在不同工作条件下泛化能力差的问题。
在这里插入图片描述
另外，一些研究采用创新的方法将时间和频率信息纳入输入。例如，Ren等人[140]提出了一种新的特征提取方法，称为谱主能量向量（SPEV），用于滚动轴承的RUL估计。对振动信号进行FFT变换，并将其分为64个块。求出每个块的最大振幅，建立谱主能量向量。将64个时间步上的64维向量组合成64*64维的特征映射图，并输入CNN，然后通过深度前馈网络和最后的平滑步骤执行回归任务。Hoang和Kang[141]将原始振动信号转换为灰度图像。每个样本的归一化振幅表示振动图像中相应像素的强度。在[142]中，作者使用了一种非常相似的方法将时间序列测量值转换为灰度振动图像。他们使用了基于LeNet-5架构的CNN模型，这是CNN早期发布的手写和机器印刷字符识别[147]。在[132]中，Zhang等人提出了一种基于残差学习的CNN轴承故障诊断方法。
复杂系统中的大规模故障诊断涉及到来自不同子系统的大量不同测量，这使得捕获组件之间的空间相关性信息非常困难，尤其是在不同的运行条件下。受时空模式网络（STPN）的启发，Han等人[148]提出了一种时空表示学习方法来处理多变量时间序列数据，用于风电机组等具有未知故障情况的复杂系统的故障诊断。模型。在输入准备的最后一步，利用马尔可夫机生成自状态和交叉状态转移矩阵，建立时空特征的二维图像。尽管上述研究取得了一定的成果，但大多数研究缺乏足够的信息来说明选择某种体系结构或预处理方法的原因。
4.8. 循环神经网络
大多数系统健康管理任务都处理时间序列度量，为了获得可靠的诊断和预测框架，必须捕获数据的时间信息。递归神经网络（RNN）具有内部记忆和反馈回路，能够记忆时间依赖关系，并学习故障的动态行为。然而，普通型rnn（基本rnn）存在梯度消失/爆炸问题，无法学习长期的时间依赖关系。梯度裁剪技术通常通过确定阈值来限制梯度的大小价值。还有提出了不同的选通机制来解决消失梯度问题。长时短时记忆（LSTM）和门控递归单元（GRU）是RNN中最著名的两个变体来弥补上述问题。郭等[149]利用LSTM建立了滚动轴承RUL预测的健康指标。首先，他们提出了一种称为相关相似度（RS）的特征提取方法，将频域和时域的特征从0到1范围内进行提取。将遥感特征与时频信息相结合，采用相关度和单调性指标的线性组合来选择敏感特征。最后，将特征序列输入RNN，构造健康指标。
在这里插入图片描述
在RNN体系结构中添加更多的隐藏层会导致深层RNN，这在学习序列数据的复杂时间依赖性方面非常强大，但是会给模型带来计算复杂性。将预测视为具有序列退化指数输出的回归问题，以及RNN处理复杂序列数据的能力，研究人员提出了基于深度RNN的健康监测框架，并取得了有效的结果[150–155]Zhang等人[156]采用具有两个隐藏层的双向LSTM（BLSTM）来跟踪涡扇发动机的健康指数变化。类似地，Huang等人[157]提出了一个基于BLSTM的框架，用于发动机在多种工况下的RUL预测。他们的模型由两个双向LSTM网络组成，见图10。训练集包含多感官数据、多操作数据和N个连续观察周期的实际RUL值。p和q分别表示传感器数量和工作条件（控制设置、输入设置等）。首先，通过时间窗处理方法将多变量时间序列标准化并转换为所需的序列数据。然后，将归一化的感官序列作为模型的主要输入输入输入到深层BLSTM中，提取具有长期相关性的降解信息。工作状态序列也被规范化（称为辅助输入），并合并到第一个BLSTM的输出特征向量中，以安排一个新的级联特征向量。第二个BLSTM获取了机器退化的更高层次的时间信息，多个完全连通的层，最后一个回归层完成剩余使用寿命预测任务。与最先进的深部模型进行了广泛的对比研究，证明了该方法在复杂操作变量下的机械预测方面的有效性。标准双向LSTMs处理前向和后向的数据序列，并且在任何时间点，网络同时利用先前处理的观测和即将处理的观测（通过后向单元）来执行中间预测。然而，RUL估计任务需要在整个给定序列之前进行单个预测。在[158]中，作者针对上述需求，提出了一种改进的LSTM架构，称为双向握手LSTM，用于从短序列的测量数据中估计RUL。
文献中使用GRU进行PHM任务的研究数量有限。例如，Zhao等人[159]在三个健康监测案例研究中采用了增强的双向GRU模型：刀具磨损预测、齿轮箱故障诊断和滚动轴承早期故障诊断。首先将多传感器时间序列分割成固定大小的窗口，然后在时域、频域和时频域提取局部特征。然后，将局部特征序列输入到双向GRU中，以获取更高层次、更具鉴别性的数据信息。作者将GRU的输出与局部特征序列的加权平均连接起来，以避免模型中的中层信息丢失。文献[160]采用核主成分分析方法对滚动轴承退化的时、频、时频域信息进行融合。然后，通过指数加权移动平均技术对HI进行平滑处理，并将其输入到基于GRU的递阶递归网络中，用于将来的HI估计和RUL预测。
虽然LSTM细胞是许多应用中最常用的循环单位，但没有证据表明一个细胞优于另一个细胞。GRU的计算成本较低，是训练较小数据集的正确选择。另一方面，LSTMs可以更好地用于更大的数据集，以保留更长的时间信息。
4.9、生成性对抗网络
生成性对抗网络（Generative antivatial networks，GANs）在合成高质量样本方面已显示出与其他著名的深层生成模型（VAE）相比的一些优势。此外，训练时不需要任何显式的密度函数，而且在抽取样本和训练时都不需要马尔可夫链。因此，与数据库管理系统一样，在高维空间中不存在链断裂的风险，并且在处理高维数据分布方面表现出了良好的性能。然而，尽管在生成清晰的合成图像方面取得了显著的成功，随后在计算机视觉领域也取得了卓越的性能，但是在其他领域使用GANs来获取时间序列传感器数据的研究却非常有限。
最近，PHM社区已经开始利用GAN来增强他们的模型，针对工业故障分类中的两个主要问题：健康类分布不平衡和标记数据不足；大多数故障诊断框架假定所有健康状况下的数据比例相等。然而，实际的机械大多在正常情况下工作，很少发生故障。因此，存在大量的健康类数据，而错误样本是有限的。此外，在操作过程中停止机器并检查故障类型也是不可管理的。因此，大多数收集到的数据是未标记的。为了应对第一个挑战，Li等人[161]提出了一种基于端到端的二维CNN的轴承和齿轮箱故障诊断GAN模型。在他们的模型中，标签的连接向量和随机产生的噪声被重塑成二维特征映射并输入到生成器。该发生器由三个连续的反褶积层组成，这些反褶积层将输入映射到更高分辨率的特征图中。需要注意的是，在CNN上下文中，术语反褶积是指转置卷积（又称分数阶跃卷积），它通过在特征地图上填充零来进行上采样。生成的数据和真实的数据被输入到包含三个卷积层的鉴别器中，而不需要任何池。鉴别器的任务是找到真实的数据并识别故障类别。该模型能够丰富故障类数据，处理不平衡数据问题。
在文献[162]中，作者建立了一种基于卷积层的编译码结构发生器的非平衡工业时间序列的半监督异常检测算法。在正常和故障两种情况下，模型都是经过训练的。将半监督卷积GAN与可切换归一化相结合应用于[163]滚动轴承振动故障诊断。取消池层，用可切换的归一化代替批量归一化，提高了训练的稳定性，对轴承基准数据集模型的准确率高达99.93%。[164]利用GANs对轴承健康指示器（振动信号的RMS）的趋势进行建模，并使用该模型生成轴承健康指示器的未来轨迹。
GANs的训练过程中存在不稳定性问题，并且容易出现模式崩溃问题，这意味着生成器学习有限的模式子集并重复生成相同的样本。研究表明，损失函数的设计显著影响了训练稳定性，并给模型带来了相应的问题[33]。原始GAN结构使用Jensen-Shannon散度（JSD）概率度量，这被证明会引起消失梯度和模式崩溃问题。许多不同领域的研究设计了替代损耗函数与增强型结构相结合来克服上述挑战。Wang等人[165]提出了一种基于Wasserstein生成对抗网络（WGAN）的广义不平衡故障诊断框架。在WGAN中，Wasserstein损耗为发电机的训练提供了连续的梯度，解决了模式崩溃问题。Cabrera等人[166]建立了一种无监督的GAN模型选择机制，以寻找用于往复机械故障诊断的最佳WPT发生器。在他们的模型中，训练过程是由真实和虚假数据簇的不同来引导的，以增强训练的稳定性。得到的发生器通过产生更多的故障数据来平衡99%的不平衡数据集。Zhou等人[167]采用了全局优化GAN框架来解决类的不平衡问题。
在最近的一项研究[168]中，Shao等人提出了一个辅助分类器GAN（ACGAN）框架来扩充故障数据集，如图11所示。在鉴别器上附加辅助部件，使增强型鉴别器能够同时识别假数据和故障类别标签。该发生器具有一维卷积结构，具有批量归一化功能，并利用具有特定标签的潜在变量的随机噪声生成人工数据。鉴别器接收与真实样本混合的生成数据，以识别源标签（1或0）和故障类别。
许多新兴的生成模型，如对抗式自动编码器（AAE）[169]和Wasserstein自动编码器（WAE）[170]都受到了对抗式学习的启发，它们在各个领域都显示出了有希望的结果[171–173]。然而，GAN和对抗训练在某种程度上是一个新颖的概念，尽管在产生真实图像方面取得了巨大成功，但它们在时间序列数据背景下的应用仍然是非常开放的，为未来不同方向的研究提供了机会。
4.10. 混合模型和涌现模型
深度学习是一个快速发展的领域，在开发提供更好性能的新体系结构方面做出了巨大的努力。许多新模型是标准体系结构（即CNN、RNN、AE等）的混合体，或是植根于现有设计。然而，一些研究确立了新的观点，但这些观点要么在数学上很复杂，要么非常具体。同样，PHM社区正在积极开发更有效的模型。例如，他等[174]建立了一个基于大内存存储和检索神经网络（LAMSTAR）的轴承故障诊断框架。LAMSTAR是一个由自组织映射（SOM）模块组成的快速而深层的动态神经网络，在各个领域都有可靠的结果。将声发射信号的STFT输入模型，并与基于cnn的诊断方法进行比较，取得了较好的效果。
卷积深度信念网络（CDBN）最初是为视觉识别任务而提出的，它利用CNN的权重共享特性来解决DBN的向上扩展问题[175]。采用一种改进的带高斯可见单元的CDBN来学习滚动轴承的典型故障特征[176]。在保留有意义信息的同时，采用压缩感知技术提高计算效率。标准CDBN在实际应用中由于Gibbs采样步数有限，存在误差振荡问题，泛化能力较弱。采用指数滑动平均（EMA）加权平滑方法对学习算法进行改进。在他们的另一项研究中[177]。
在大多数实际的PHM框架中，处理具有内部相关性的多维感官数据是一个关键的挑战。一些研究将卷积层和LSTM层集成到一个统一的模型中，以捕获多维时间序列的时空信息。Zhao等人[178]采用CNN-双向LSTM（CBLSTM）网络进行刀具磨损预测任务。在[179]中，作者建立了一个带有类不平衡加权损失函数的CNN-LSTM（CLSTM）模型，用于网络物理系统（CPS）的不平衡故障分类。尽管取得了令人满意的结果，但上述模型独立地提取了时空信息，对时间步长之间的特征变化关注较少。乔等人[180]提出了一种时间分布卷积LSTM（TDConvLSTM）来学习多通道时间序列测量的时空信息。他们将标准化的原始数据分割成子序列，并用convltm单元（而不是普通LSTM单元）将其输入到模型中。第一Conv LSTM层同时学习子序列内的局部时空信息。在前一层上叠加一个整体Conv-LSTM单元，提取子序列之间的时空信息。
研究表明，编解码结构的rnn对复杂序列进行了多种改进，类似于时间序列测量的RUL估计用于预测应用。Malhotra等人[181]提出了LSTM编解码器（LSTM-ED）框架，用于系统的无监督健康指标构建。类似地，基于涡扇发动机数据集RUL估计的GRU编解码器（GRU-ED）网络在遇到不同噪声水平时表现出显著的鲁棒性[182]。此外，带有GRU隐藏单元的DAE网络显示了优于标准GRU网络的故障诊断精度[183]。
表8总结了混合动力和新兴车型。标准CNN、RNN和AE的对抗性扭曲最近引起了对深度学习研究的关注，而在PHM领域的相关研究却很少。表9总结了最著名的深层网络及其特征。
在这里插入图片描述
4.11. 迁移学习与领域适应
与传统的数据驱动方法相比，深度学习技术减轻了手动特征工程的负担，并获得了最先进的结果。尽管取得了惊人的成绩，但大多数研究都是基于这样的假设，即训练和测试数据来自相同的分布。然而，在实际工业中，数据是在不同的操作和环境条件下，在不同的时间间隔内采集的，往往会导致训练和测试数据集的特征空间差异或分布偏移。此外，为工业数据添加标签成本高昂且容易出错，需要大量人力和专业知识。因此，没有足够的注释数据来训练可靠的模型。迁移学习（TL）和领域适应（DA）方法主要是通过转移知识或利用一个或多个训练数据集的可转移特征来改进模型，从而在测试数据集中执行相关的新任务。
深度TL和DA技术近年来在计算机视觉领域得到了越来越多的关注，并在对象分类、对象识别和语义分割等方面取得了优异的效果。虽然有一些研究调查了TL和特定的DA相关的PHM深度学习方法，以解决不同的问题，如训练数据不足、类不平衡、跨领域故障诊断和协变量转移，但它仍处于初级阶段。
我们用特征空间X和边缘概率分布P（X）来定义域D，其中X={x1，x2，…，xn}∈X。同时，期望任务T由标签空间Y和条件概率分布P（Y | X）组成，其中Y={y1，y2，…，yn}∈Y。假设{Xs，P（X）s}和Dt={Xt，P（X）t}作为具有足够注释数据的训练数据集（称为源域）和没有/很少标记数据的测试数据集（即目标域）。传统的机器学习方法假设Ds=Dt和Ts=Tt。然而，实际上，目标数据集和测试数据集在域Ds=Dt或任务Ts=Tt或两者之间是不同的[192]。迁移学习包括所有三种设置，而DA方法处理前一种情况。在下面的小节中，我们讨论了TL范式中的两种技术。第一小节重点介绍如何使用TL，通过预先训练的目标模型对源域进行微调。在这种情况下，目标任务和源任务不一定要相似。第二部分讨论了用DA技术解决光子晶体中的畴移问题。对于DA，目标域和源域共享相同的标签空间，或者源标签空间应该是目标标签空间的一个子空间。
4.11.1、基于预训练模型的迁移学习
与传统的机器学习算法不同，深度模型的性能在很大程度上依赖于大量训练数据的可用性来学习数据的潜在模式。然而，在许多领域，包括PHM，收集大规模的标记数据集是非常困难的。此外，它需要大量的计算能力来训练大规模数据集上的模型。最近，研究人员利用各种预训练模型在大型基准数据集上学习的知识，并将这些知识转移到其他应用程序中来解决上述问题。大量深入的CNN架构已经被训练成大规模的图像数据集，比如ImageNet[193]。Inception Net、GoogleNet、LeNet、AlexNet、ResNet和VGG就是一些例子[194]。
在这里插入图片描述

TL背后的思想是根据目标域中的新任务对预先训练的模型进行微调。因此，新模型可以通过传递参数来初始化，而不是从头开始训练。在文献中，基于源（预训练）域和目标域的相似性以及数据集的大小，提出了一种使用预训练CNN架构的方法，如图12[195]所示。目前，PHM领域的研究人员已经开始使用预先训练好的模型进行故障诊断和任务，并取得了很好的效果。Wen等人[196]微调了轴承故障诊断任务的AlexNet预训练模型的所有层。在他们的模型中，最后的完全连接层被一个有四个神经元的分类器层代替（轴承故障条件的数目）。他们用八种不同的时频图像输入和不同的训练/测试数据集比率对他们提出的模型进行了全面的比较。在另一项研究[197]中，作者利用VGG-16预训练网络进行轴承故障诊断。他们冻结了网络的底层块，用一个有监督的分类器层对VGG-16的最后三层进行了微调。由于大多数预先训练的网络需要三通道的RGB图像作为输入，因此对数据进行相应的预处理是非常重要的。Wen等人[196]提出了一种将时域信号转换为RGB图像的信号到图像的方法。他们转移了预先训练的ResNet-50的前49层，并在添加了完全连接层和softmax分类器之后对模型进行了微调。一些研究采取了类似的策略并取得了有趣的结果，见表10。尽管取得了很好的结果，但是需要更多的研究来获取时间序列的时间特征以进行分类/预测。TimeNet和ConvTimeNet预先训练的模型是两个有趣的例子[198199]。
SCDA
4.11.2. 域适应
区域发散可能是由分布偏移或特征空间差异引起的。第一种设置称为同质DA，而后一种情况表示异构DA。此外，考虑到训练阶段可用的标记、部分标记或无标记目标数据集，设置可分别分为有监督、半监督或无监督，图13总结了机械健康监测领域中的主要DA设置和方法。

一些作者采用基于差异的方法，通过对标记或未标记的目标数据进行微调来提高模型性能。一些研究通过自适应批处理规范化（AdaBN）[205]和重新加权弱学习者[206]技术调整网络结构来进行微调。然而，大多数基于差异的方法利用预定义的距离度量，如最大平均差异（MMD）、KL散度和相关对齐（CORAL），通过减少两个域之间的偏移来学习域不变表示。例如，Zhang等[207]利用预先训练好的源特征提取器参数初始化CNN目标特征提取器，并在域自适应微调阶段对域的高层表示进行松绑，以平衡训练效率和域不变特征学习。在特征抽取器的输出层采用再生核Hilbert（RKH）空间的MMD正则化方法，保证了映射后边缘分布差异的最小化。Lu等人[208]在训练过程中，采用MMD和加权正则化项学习共享子空间，同时保留原始数据的鉴别信息，用于旋转机械部件的半监督故障诊断。
基于MMD的方法高度依赖于适当的内核选择，以确保低测试误差。Li等人[209]利用了跨多个表示层的径向基函数（RBF）核的混合以及更高级的特征聚类方案，通过优化类内和类间距离来提高故障分类的准确性。在另一项研究[189]中，作者部署了基于CNN的生成器，使用频域信号的高级表示，在源的监督下生成假目标域故障数据，并最小化假高级特征和真实高级特征之间的多核MMD。Qian等人[210]定义了一个新的差异度量，即自平衡高阶Kullback-Leibler（AHKL）散度，通过评估一阶和高阶差异来实现更好的边际分布对齐。此外，本文提出的基于软标号的平滑条件分布比对（SCDA）方法可以覆盖较大的条件分布差异。此外，在微调过程中，新的加权联合分布比对（WJDA）平衡了最终模型中条件分布和边际分布比对的影响。
上述研究大多将目标域作为同一台机器的其他工作条件。因此，对于不同机械之间相似部件的故障诊断，它们可能会给出不准确的结果。[211]中的deep 1D CNN模型将实验室滚动轴承的知识转移到实际的机车轴承上，图14。域共享CNN采用对称加权的方法同时处理源域和目标域的样本，最后一个共享层的Softmax分类器用来预测源目标样本的类标签。最后的代价函数结合隐层学习特征的MMD和目标域伪标记样本的丢失，使特征的类间距离最大化。
以GAN模式为启发的对抗性学习取得了巨大的成功。其核心思想是确保分类器被合成标记的目标数据所欺骗，或者不能通过生成或区分的对抗过程来区分源域和目标域。梯度反转层将特征抽取器连接到域分类器，确保源回归层使用域混淆损失接收域不变特征。Zhang等人[190]利用部分并列的权值对源域和目标域进行对抗性训练，以解决域适应性和训练效率的权衡问题。然而，目标特征抽取器是用预先训练好的源模型参数初始化的，以避免目标模型学习退化解。
与通常在对抗过程中使用的概率距离（如KL和JS散度）不同，Wasserstein距离提供了一个连续的映射和处处可用的梯度[212]。在[172]中，域批评损失使用源分布和目标分布之间的Wasserstein距离，在预先训练的CNN（源数据）特征提取器上优化基于CNN的共享潜在表示。目标函数将对抗性损失并入标记源域（半监督情况下为目标域）的区分性交叉熵损失中。在[173]中提出的框架包含CNN特征描述符和域鉴别器，它们通过最小-最大对抗学习相互竞争。前者倾向于以鉴别器无法区分域标签的方式捕获子集的共享表示。此外，通过完全连接的层和Softmax分类对标记样本的监督防止了目标在训练期间的偏差，见图15。

基于重建的DA方法使用编码器-解码器或GAN架构在域之间创建共享表示，同时保留每个域的区别信息。Li等人[213]以无监督的方式对SAE层次结构的源数据进行了良好的训练和测试。在分层无监督训练的重构误差中引入非负约束项，并引入Softmax分类器代价函数，提高了模型的稀疏性。将参数转换为类似模型，然后进行微调处理，解决了注释数据不足的问题，图15，a.Xie等人[214]利用周期GAN网络进行轴承故障诊断。网络学习一个从源到目标的映射和一个从目标到源的反向映射。循环一致性损失测量两个生成步骤后的重建误差，见图16，b。

一些研究同时使用了上述方法来提高模型性能。[215]将基于重构的SSDAE网络与MMD统计相结合用于轴承故障诊断。在保持区域自适应能力的同时，将MMD项引入到细分步骤的分类损失中，代替重建损失，降低了算法的复杂度。MMD距离对核选择的依赖性很强，泛化能力较差。deepcoral提供了一种无核非线性变换，对于大规模应用程序更为有效。Wang等人[216]将边缘分布和条件分布的珊瑚距离损失纳入深度DAE目标函数，以学习从低水平到高水平层次潜在层的域不变和区分特征。该模型使用源和目标特征的协方差矩阵之间的珊瑚损失来校准分布的二阶统计量，如图17所示。
以上的研究大多集中在同质深部数据挖掘上，对于异质深部数据挖掘的研究并不多，甚至在计算机视觉等数据挖掘较为活跃的领域也没有做过大量的工作。然而，一些研究人员已经将类似于同质DA的方法用于异质DA设置。表11总结了PHM应用的深域自适应方法。

5硬件、软件和计算资源
虽然深度学习在PHM问题上取得了很好的效果，但由于计算量大，其适用性受到影响。需要适当的硬件和软件来支持复杂环境下的有效培训[227]。在本节中，我们将讨论深度学习的三个主要促成因素，即并行计算、高级库和云/边缘计算。
5.1. 并行计算
与传统的机器学习算法相比，深层结构需要更大的参数空间，需要在每个训练周期进行更新，需要大量的矩阵运算和强大的处理能力。并行计算有助于同时执行大量操作。中央处理器（CPU），即使是最新的、功能强大的芯片，其处理单元（核心）数量有限，并行能力低。因此，它们在实现深度模型方面效率不高，可能需要数周时间才能得出结果。

图形处理单元（GPU）最初专门用于处理图形和高质量的3D游戏。与CPU相比，GPU拥有数千个擅长处理矩阵的高度专业化内核。借助于计算统一设备体系结构（CUDA）平台和NVIDIA CUDA深度神经网络（cuDNN）库，研究人员和数据科学家最近发现，GPU可以变成一个强大的通用计算引擎，通过并行加速训练过程[227]。它们提供了更高的内存带宽，大大加快了训练速度。
此外，张量处理单元（TPU）是谷歌最近开发的专用集成电路，专门用作机器学习加速器。与gpu相比，tpu具有更高的处理速度，但它们的灵活性较差，并且仅限于TensorFlow库中的模型。[228]提供了TPU的综合评估，并在性能和速度方面与GPU和CPU进行了比较。
5.2. 平台
深度学习的成功在很大程度上依赖于最先进工具的开发，包括框架和工具图书馆。各种各样的框架通过提供预训练模型、多GPU处理和训练/测试速度方面的不同特性，在生成具有高可伸缩性的新模型方面发挥着关键作用。表12展示了最著名的框架，显示了支持的编程语言和每个框架的优点。这些工具的排名是基于GitHub网站[229]中用户的受欢迎程度和评级，这是一个面向开发人员的协作代码托管平台。深入学习工具的全面讨论和比较见[230231]。
5.3. 云计算
而云计算和云计算（包括云计算和云存储）是一个通用的概念。在PHM环境下，云资源基本上可以被研究人员用来在任何规模上实时开发、训练和部署他们的深层模型。公共云供应商正在快速提高其能力，提供先进的分析服务，即现收现付，这对新手和经验丰富的数据分析师都很实用，见表13。

从更大的角度来看，云计算作为“大数据分析”和“工业物联网（IIoT）”技术的关键推动者，与网络物理系统（CPS）概念中的“先进传感器”、“无线通信”、“先进制造”和“机器人”等其他技术并驾齐驱在将制造系统提升到智能化水平（即“智能制造”向“工业4.0（第四次工业革命）”目标迈进的过程中发挥着关键作用[236]。
在智能制造模式中集成PHM超越了单个组件的监控和数据分析。它具有挑战性，需要大量的计算资源来确定和管理组件、子系统和系统之间的交互。云计算正在将传统的制造和状态监控框架转变为面向服务的模型[237238]。边缘计算（Edge computing）和雾计算（fog computing）是云计算的最新扩展，它们通过处理IIoT层中的数据来解决高延迟、安全性和带宽问题，IIoT层更接近数据资源[239]。

6结语与开放性研究方向
在这篇论文中，详细地回顾了在故障检测、诊断和预测方面应用深度神经网络的各个方面。从上面的讨论可以看出，DL算法在模型性能、学习复杂表示、大数据分析以及以最小的预处理工作量处理原始数据等方面为数据驱动方法带来了新的视角。然而，尽管取得了令人满意的结果，但要取代业界成熟的数据驱动技术，用于PHM的DL应用还有很长的路要走。除了文献中提到并通过调查进行彻底审查的障碍外，作者还发现了在开发DL潜力方面的几个重大挑战，即采用可靠、可扩展和适用的PHM模型来实现工业4.0目标。为了勾勒未来的研究方向，我们总结了关键相关的挑战和相关的机会，研究人员。
1数据匮乏：事实上，DL算法是众所周知的数据饥渴，其优越的性能取决于丰富数据的可用性，这在大多数情况下是不可行的。近年来，人们提出了几种方法来解决小数据集在模型泛化和优化方面的局限性。数据扩充技术通过生成合成数据在增强训练数据集的规模方面取得了巨大的成功。诸如窗口裁剪、包装和翻转等基本增强技术已被广泛用于从原始时间序列数据生成新的数据序列[240]。此外，可以使用生成算法等先进技术生成与实际数据相似的新数据。然而，考虑到数据的时间相关性，需要新的生成模型来在时间和频率域中生成有效的时间序列数据。迁移学习是一个活跃的研究方向，它通过将知识从一个领域转移到另一个领域来处理少量的训练数据。它通过在新域上微调预先训练的模型，减轻了从头开始训练模型的需要。此外，单次学习方法可以通过定义一个新的损失函数或创建一个可以编码和检索新数据的外部记忆，有效地支持从一个带注释的训练样本中学习。
2行业数据特征：deep模型的成功与否在很大程度上取决于所收集数据的质量和种类。智能传感器和IIoT技术的发展在某种程度上缓解了工业数据匮乏的问题。然而，更多的数据意味着与操作环境、各种数据源和需要处理的数据传输相关的更多噪声和不确定性。更重要的是，对于大数据和未标记的不完全数据，我们面临着更严峻的挑战。如前所述，一些工作提出了通过生成算法（特别是GANs）使用增广技术缓解问题的努力，并取得了有趣的结果。然而，大多数方法都考虑了一个适度不平衡的场景，而忽略了实际工业应用中存在的显著代表性不足的类的挑战。另外，现实世界中的数据来源于各种传感器，并且大多是非结构化、多模态和异构的，这使得模型更加复杂。在不降低训练效率的前提下，进一步研究如何利用深层模型中的异构信息。
3数据分析：数据预处理和可视化在机器学习和深度学习中起着至关重要的作用。模型的质量对训练数据的质量非常敏感。预处理的范围从简单的规范化、标准化和数据分割到更复杂的任务，如标记、处理不完整数据、异常值和缺失值。Chen等人提出了一个基于深度迁移学习的学习框架
通过将经过良好训练的结构完整的故障诊断模型转换为缺失数据模型来处理缺失值[241]。在缺乏足够的标记数据的情况下，利用VAEs和GANs等生成性深度网络生成合成数据，为生成新的标记数据提供了一种快速、廉价的解决方案。此外，对于基于深度学习的故障诊断，特征的空间分布反映了故障特征差异的质量，直接影响分类精度。因此，需要有效的可视化技术来分析特征的质量。Zemouri等人提出了一种基于深度卷积VAE的二维可视化分类模型[242]。
4模型选择：选择一个最佳的网络结构是一个重要的问题。大多数被评论的论文都没有证明使用某种体系结构来解决特定问题是合理的。到目前为止，大多数应用的网络都是由专家手工设计的，容易出错，耗时长。尽管DL在自动化解决方案方面有相当大的优势，但它仍然显著地依赖于选择范围广泛的超参数。利用进化算法优化超参数设置的文献很少。然而，作者在PHM中还没有发现任何关于神经结构搜索（NAS）的文献，NAS是机器学习的一个新趋势，在图像分类和语义分割任务的自动化网络设计方面取得了显著的成功。对于大规模实际工业数据，研究在超参数和体系结构选择方面开发更多自动化模型的可能性非常重要。
5黑箱工具：尽管取得了可喜的成果，但许多公司仍然不愿意采用DL。其原因在于DL算法的黑匣子性质，使得模型缺乏“透明度”和“可解释性”，尤其是PHM循环的决策部分。对作出某些决定的基本过程和原因没有充分的了解。换言之，公司不能相信他们不了解和无法控制的东西。近年来，为解决上述问题作出了若干努力。解释性深度学习是一种新的范式，可以打开黑匣子，增加模型的透明度。这些技术大致分为两类：a）利用一个相对简单的模型来解释复杂的深度学习模型；b）通过在中间层引入注意机制来构建内在的可解释的深度结构[243]。
6跨领域预测：现有的大多数工作都是使用在实验室条件下收集的公共数据来训练他们的模型。领域自适应技术的发展也是如此，它的重点是将实验室数据中的知识从一种工作状态转移到另一种工作状态。转移学习的研究，以解决分布不匹配的各个领域，包括真实的工业设备和人工实验室故障，正在进行深入的学习范式。为了获得更好的领域泛化能力，需要对多个源域进行领域自适应，从而在实践中建立可行的模型。
7实时实现：近年来，虽然先进的硬件、DL架构和计算模式（云、edge和fog）已彻底改变了大规模学习，但DL算法的实时培训和部署面临着新的计算挑战。在PHM领域，很少有相关的工作利用云计算能力进行更快的离线训练，而加速推理（即部署）则是适用PHM模型更为关注的问题。实际工业数据是连续的数据流，其分布特征是随时间动态变化的，限制了数据的准确、实时推断。因此，该模型需要处理在增量学习环境中不断演化新数据的概念漂移。然而，典型的DL算法存在着遗忘的问题，即在序列训练过程中，为了学习新的信息，先前学习的知识完全丢失。需要新的算法和硬件结构来促进非平稳序列数据的连续学习，同时保留预训练模型的一般领域知识。
8基准测试的作用：目前，许多DL体系结构、算法、平台和框架被用来解决以前认为无法解决的特定PHM问题。可用的算法、模型、软件和硬件系统的多样性增加了对基准基础设施的需求，该基础设施能够公平地比较工作负载与训练和推理的时间和成本。目前，一些作者对不同的技术进行了比较分析。然而，他们将他们的深度模型与经典的机器学习算法进行了比较，并且只关注一般的性能指标，如准确度和分类（见表5）。需要构建新的度量标准，将运行时性能、模型准确性和健壮性结合到各种体系结构和DL框架中。
竞合利益声明
作者声明，他们没有已知的竞争性的经济利益或个人关系，这可能会影响本文中所报告的工作。