论文基本信息
论文题目:
Deep transfer learning strategy in intelligent fault diagnosis of rotating machinery
摘要
旋转机械在许多工程领域中扮演着至关重要的角色。为了确保系统的可靠性,需要及时解决预测和健康管理问题。借助大数据和人工智能,智能故障诊断提供了一种新的方法。面对稀缺的故障数据和复杂的条件,深度迁移学习(DTL)为跨域和跨机器诊断提供了一种可能的方法。迄今为止发表的综述主要集中在基于常见类别的DTL或工业应用场景的故障诊断分析上。本综述则专注于DTL在旋转机械中的应用。此外,现有的相关综述主要截止到2021底。我们分析了从那时起至今的最新研究。本文选择了基于输入类型的特殊主线,以区别于其他综述。从这个角度来看,全面综述旋转机械的故障诊断具有重要价值。本综述首先概述了DTL的基本原理和传统类别。然后总结了DTL在旋转机械故障诊断中的主要应用,已分析了超过100项相关研究。在讨论应用于旋转机械的DTL框架时,选择了输入类型这一特殊视角,包括一维和二维,进行评估。最后,指出了现有挑战并展望了DTL的潜在未来趋势。本综述有助于读者了解迁移智能故障诊断的研究现状和发展趋势,为不同尺度上的创新探索提供了参考。
关键词:故障诊断,迁移学习,深度迁移学习领域适应,旋转机械
1 引言
旋转机械是工业领域中至关重要的动力传输设备,并已在工业机械、航空航天、导航和能源设备中得到广泛应用(Zhang等人,2023a;Liang等人,2022;Liu等人,2024)。旋转机械的安全健康运行对整个机械系统的可靠性有着至关重要的影响。为了确保机械系统的安全可靠,研究并实施旋转机械的故障诊断和健康维护非常重要。然而,由于旋转机械故障具有耦合性、随机性和复杂性,故障特征的提取和诊断具有挑战性。
随着人工智能的发展,智能算法为自动故障检测和识别提供了一种新方法(Cha等人,2024;Zhu等人,2023)。卷积神经网络(CNN)是智能算法发展的里程碑。第一个CNN是Waibel等人在1987提出的时延神经网络,这是一种用于语音识别的一维(1D)CNN(Waibel,1987;Waibel等人,1989)。对于1D CNN,模型的输入、卷积核向量和特征图都是1D,输出也是1D。一种基于CNN的深度架构的基于视觉的方法被提出,用来检测混凝土裂缝(Cha等人,2017)。为了实现多种类型损伤的实时检测,构建了一个更快的基于区域的CNN用于结构视觉检测(Cha等人,2018)。智能方法进一步应用于旋转机械的故障诊断(Tang等人,2024;Zhang等人,2023b;Chao等人,2023)。冯等人研究了使用一种新的振动指标来检测齿轮磨损,并采用了一种用于齿轮健康评估的双驱动方法(Feng等人,2023a,2023b)。考虑到故障训练样本的不足,Handikherkar等人总结了关于齿轮故障建模和动态仿真的研究,并介绍了基于仿真的方法和机器学习模型(Handikherkar和Phalle,2021)。Wang等人通过应用集中参数模型来获得足够的训练样本,实现了对齿轮运行状态的检测(Wang等人,2022a)。由于实际中故障数据总是远少于正常数据,因此提出了针对轴承和齿轮箱小样本故障识别的两阶段诊断方法(Zhang等人,2022)。Koutsoupakis等人通过模拟和实验使用CNN识别轴承损伤(Koutsoupakis等人,2023)。使用蝗虫优化算法对支持向量数据描述和支持向量机(SVM)进行了优化。针对传统CNN和循环神经网络的局限性,Wei等人提出了一种通过结合自注意力机制和CNN的特征融合结构,用于齿轮箱和轴承的智能故障诊断(Wei等人,2023)。通过引入基于权重的选择策略和灰狼优化器到卷积神经网络(CNN)中,构建了一个用于齿轮滚刀和齿轮箱故障诊断的集成模型(Zhou等人,2023)。为液压活塞泵的故障分类建立了一个深度归一化CNN模型。该方法引入了贝叶斯算法,并挖掘了同步挤压小波变换的潜力(Tang等人,2022)。提出了一种基于深度残差网络的核电站旋转机械故障诊断融合方法(NPP)。振动信号通过快速傅里叶变换(FFT)转换到频域。通过将重建的二维特征图整合到三维图中实现了多传感器融合(Yin等人,2023)。
作为机器学习的一个重要组成部分,迁移学习(TL)已经吸引了许多从事智能故障诊断研究的学者的关注(Chakrapani和Sugumaran,2023;Ren等人,2023;Zhong等人,2022)。深度迁移学习(DTL)与深度学习相结合,在机械故障诊断方面取得了一些重大成就(Yang等人,2023a;Lei等人,2019;Li等人,2020)。Liu等人提出了一种基于inception-ResNet-V2的迁移方法,用于使用导波结构测试进行道岔铁路故障检测(Liu等人,2023a)。Dong等人开发了一种细粒度的迁移学习方法来解决不平衡的领域数据问题,并基于卷积神经网络(CNN)和相关性对齐(CORAL)实现了轴承和齿轮箱的跨领域故障诊断(Dong等人,2023)。Wang等人开发了一种特征相关匹配的迁移学习模型来解决领域差异并识别轴承故障(Wang等人,2022b)。杨等人基于生成对抗网络(GAN)和小波包变换实现了风力涡轮机的不平衡故障诊断(Yang等人,2023b)。由于领域分布差异和交叉操作条件,提出了一种基于循环GAN的迁移诊断结构(Zhao和Huang,2022)。Li等人通过整合Time-GAN和Efficient-Net实现了在极端不平衡情况下的轴承诊断(Li等人,2022a)。由于迁移学习(TL)对稀疏数据的泛化能力较弱,Wang等人提出了一种结合图标签和流形连接的无监督迁移学习方法用于轴承故障诊断(Wang等人,2023a)。基于类间排斥力判别迁移学习,Wang等人提出了一种用于新操作条件下轴承故障诊断的无监督方法(Wang等人,2022c)。Huo等人通过一个无监督学习模型和领域与类别的两级匹配实现了轴承故障的迁移诊断(Huo等人,2023a)。Chen等人提出了一种轻量级的无监督对抗模型,用于在变化负载下进行轴承故障诊断,引入了信息融合策略和通道残差方法(Chen等人,2022)。Zhang等人提出了用于轴承和齿轮箱小样本故障分类的联邦学习方法,并确保数据隐私(Zhang等人,2023c)。融合联邦学习和对抗领域自适应,为齿轮箱未知故障识别提出了一种开放集跨域诊断方法(Xu等人,2023)。基于自适应对抗网络和特征融合,构建了一种用于轴承故障诊断的多通道迁移学习方法(Han等人,2023)。通过将振动信号转换为三通道灰度图像,提出了一种基于迁移学习(TL)和多通道卷积神经网络(CNN)的轴承在线诊断方法(Meng等人,2022)。基于CNN提出了一个集成迁移学习框架,在有限样本的情况下,实现了97.51%的轴承故障识别准确率(Ma等人,2023a)。Wang等人结合了元学习和迁移学习的优势,完成了轴承的少样本故障诊断(Wang等人,2023b)。使用迁移学习和多尺度自适应1D CNN进行轴承的少样本故障识别(Li等人,2023a)。开发了一种深度卷积迁移学习方法,用于在复杂工作条件下轴承和齿轮故障识别(Li等人,2022b)。提出了一个带有注意力机制的自适应多尺度CNN,以克服齿轮箱和轴承故障诊断中的领域偏移和特征差异(Shao和Kim,2024)。为旋转机械的故障识别构建了一个新的传输框架,该框架基于多路径融合模型和动态多尺度表示(Sun等人,2023)。已发表的文献综述的主要线索主要基于DTL方法或工业应用的分类。它们仅到2021底。本次综述的动机是提供一个新的输入类型视角,并专注于当前基于DTL的旋转机械故障诊断。
本研究的其余部分组织如下。第2节介绍了迁移学习的基本原理和常见类别。第3节讨论了深度迁移学习在旋转机械故障诊断中的典型应用,从一维和二维输入的角度进行了探讨。第4节总结了结论并提供了未来展望。
2 迁移学习的基础理论
2.1 迁移学习的理论基础
作为机器学习方法的重大进步,迁移学习(TL)在跨领域和跨任务学习方面取得了突破。TL的神秘面纱将从以下视角揭开:发展历程、原理、优势以及应用范围,如图1所示。
“迁移”这一术语是由Lorien Pratt引入到机器学习中的,她开发了基于区分性的迁移算法(Pratt, 1993)。在相关研究中,迁移学习采用了多种表述方式,相关学习(relative studies)、学习学习(learning to learn)、知识迁移(knowledge transfer)、多任务学习(multi-task learning)和归纳迁移(inductive transfer)。逐渐地,它成为一个完整的学习领域,并进一步应用于文本分类、马尔可夫逻辑网络和贝叶斯网络(Do和Andrew, 2005; Mihalkova等, 2007; Niculescu-Mizil和Caruana, 2007)。历史演变如图2所示。TL被认为是机器学习商业成就的下一个驱动力。
图1 TL理论的组织结构
图2 TL的发展时间线
TL是一种将从已学习任务中获得的知识迁移到辅助目标任务学习的方法(Pan和Yang,2010)。其核心在于寻找现有知识与新知识之间的相似性。它强调了在不同领域或变化任务之间进行知识迁移和转换的能力。领域和任务是TL中的两个基本术语,通常是源领域(SD)和目标领域(TD),源任务和目标任务。从这个角度来看,TL的目标是如何将知识从SD迁移到TD。
现有的知识被称为源域,表示为 (Kouw和Loog, 2021; Zhao等, 2024),
其中, 表示样本在SD中的数量, 表示样本空间, 表示标签空间, 表示与样本 对应的标签。数据符合边缘概率分布 。要学习的新知识被称为目标域。它可以表示为 (Kouw和Loog,2021;Zhao等人,2024)。
其中, 表示TD中的样本数量, 表示样本空间, 表示标签空间, 表示对应于样本 的标签。数据符合边缘概率分布 。
在一些重要任务中使用迁移学习(TL)的主要动机可以归结为三个要点。首先,带有标签的数据不足使得模型训练变得困难。手动标注数据非常耗时且不切实际。利用与TD相似的SD数据构建目标模型并提高泛化能力是有效的。其次,需要大量的数据和计算资源。借助现有模型迁移,可以利用当前已知的信息学习新的特征。这缩短了新模型的开发周期并降低了学习成本。第三,如何使用通用模型来满足特殊需求是一个挑战。迁移学习可以提供一个思路,根据特征分布的相似性和差异性来调整模型。
TL涉及以下场景,单个SD对应单个TD,以及多个SD对应单个TD。当SD中的样本数量大于TD时,TL被认为是可用且有效的。当两个域的数量几乎相等时,TL可以增强TD模型的性能。当SD和TD完全无关时,TL并不适用。即使域之间存在相关性,如果迁移方法不适用,也会发生负迁移。
2.2 迁移学习的分类
TL根据不同的维度和标准被划分为不同的类别。其中包括特征空间和学习方式(Tan等人,2018;Li等人,2022c;Zheng等人,2024)。DTL可以理解为深度神经网络模型和TL的集成。DTL充分利用了特征提取能力和知识迁移策略的优势。根据要学习的知识类型,DTL方法被分类为基于实例的方法、基于特征的方法、基于关系的方法、基于网络的方法和基于对抗的方法(Qian等人,2022a)。这些类别有时是交叉的,并非绝对的。
TL方法的总结见表1。
表1 DTL方法的优势与劣势
3 旋转机械故障诊断的深度迁移学习策略
DTL因其处理跨领域和跨机器任务的潜在能力,引起了机械故障诊断研究的广泛关注(Shakiba等人,2022;Deng等人,2021;Jiang等人,2022;An等人,2021)。它已被引入许多旋转机械的故障分类中,包括轴承、齿轮、变速箱、转子、航空发动机、三联泵、燃气轮机和轴向柱塞泵。共同转移模型的构建主要集中在以下几个方面的基础上:CNN、ResNet、DenseNet、稀疏自编码器、堆叠自编码器、长短期记忆网络、极限学习机、强化学习模型和自适应对抗模型。DTL在旋转机械智能故障诊断中的应用在表2中进行了总结。
DTL方法被分类为四种类型:基于实例的、基于特征的、基于网络的和基于对抗的。考虑到输入数据的类别,将从1D和2D输入样本的角度出发,对基于DTL的故障诊断进行分析和讨论。
表2 旋转机械故障诊断中DTL策略的应用
表2(续)
3.1 基于一维输入的迁移诊断应用
3.1.1 基于实例的深度迁移学习
基于实例的DTL主要指的是使用特定的权重调整策略,该策略在SD中选择一些实例,并赋予适当的权重以扩展TD中的训练数据集。作为典型的代表,TrAdaBoost使用基于权重的自动更新机制。重要的辅助样本被保留,而不相似于目标域样本的样本被排除(Dai等人,2007)。通过结合奇异值分解和TrAdaBoost,Shen等人提出一种基于辅助振动数据的权重调整方法,实现了高准确性的电机故障诊断(Sugiyama等人,2012)。一种TaskTrAdaBoost的快速算法被开发,以改进对新目标域的再训练(Yao和Doretto,2010)。密度比率估计也是一种基于实例的方法,通过计算两个域的边缘密度比率来解决源域和目标域之间的协变量偏移问题(Shen等人,2017)。Asgarian等人基于概率加权策略进行了一种复合的基于实例的TL(Asgarian等人,2018)。
Li等人针对深度模型的数据保持和泛化能力,利用联邦迁移学习策略实现了模型共享情况下的轴承故障诊断(Li等人,2023b)。利用时间拉伸法,基于局部振动数据可以生成假样本。通过考虑优化随机性和目标样本的噪声添加,构建了模型级和实例级的一致性。输入是来自快速傅里叶变换(FFT)的频域信息。主要模型是一个具有两个卷积层的卷积神经网络(CNN)。比较了四种不同的迁移方法,所提出方法的准确率达到了大约100%。针对普通迁移学习(TL)对广泛参数和输入长度的不敏感性,提出了一个轻量级的迁移框架用于轴承诊断(Tang等人,2023)。基于包络解调,开发了一种自适应选择输入长度的方法,如图3所示。综合考虑了采样频率和轴承参数等因素。通过整合组卷积和实例归一化,减少了参数并使模型轻量化。在两次实验中,一次是使用相同数据集和不同迁移任务,另一次是使用不同数据集和迁移任务,大多数任务的诊断准确率达到了99%以上。
图3 针对输入长度的自适应选择模块
对于多域诊断的情况,构建了一个新的迁移网络用于轴承故障识别(Li等人,2022d)。使用了核最大均值差异(MMD)进行域适应。引入了一个统一的度量标准用于无监督的集成学习。使用强化学习来融合多个模型和多个域。强化模型产生的搜索结果如图4所示。主模型的构建基于一个具有3个卷积层的1D CNN。所提出的诊断方法在三个轴承数据集上的准确率分别为99.70%,83.63%和93.98%。与其它集成方法相比,平均准确率提高了16.61%。
常见的闭集域适应意味着测试和训练样本具有相同的健康状况,这可能因存在不可见故障类别导致类别缺失。针对这个问题以及由于样本分布不一致导致的域偏移,提出了一个自适应的多源域方法用于开放集的旋转机械故障识别(Tian等人,2023)。输入是一个1D振动信号。模型的基本结构是带有批量归一化的CNN。使用了两种类型的特征提取器,一种用于共享,另一种专门用于SD。设计了一种互补的可迁移性度量,用于区分未知的故障类型,这被用于指导迁移诊断。使用了凯斯西储大学(CWRU)轴承、轧机和齿轮箱数据集进行演示。它对于已知故障的分类和未知故障的检测是准确和有效的。
图4 单次试验中投票权重的搜索过程(Li等人,2022d)
Miao等人通过使用有限元模拟减少了TL对测试数据的依赖(Miao等人,2023)。在不同操作条件下,计算了不同故障类型的振动信号。通过滑动窗口分段和填充模拟数据,建立了TD中的数据集。使用了三种不同的深度模型,即1D宽核CNN、1D ResNet和1D DenseNet。在测试台架和CWRU数据集上进行的实验达到了95%以上的准确率。对于TD中没有故障样本的情况,侯等人提出了一个基于模拟的迁移框架用于轴承故障识别(侯等人,2023)。模拟故障样本是基于构建的故障脉冲和测量的正常振动信号获得的,如图5所示。模拟数据计算得到的包络谱被用作迁移模型的输入。模型基础是一个带有多头注意力机制的CNN,用于学习更多样化的信息,如图6所示。在三次实验中,故障诊断的准确率分别达到了使用14个头的93%、使用12个头的95.3%和使用13个头的92.75%。
图5 基于正常振动信号和故障冲击的故障数据仿真过程(Hou等人,2023)
图6 提出的具有多头注意力机制的CNN结构(Hou等人,2023)
关于标记样本不足的问题,Li等人构建了一个基于预训练CNN的迁移诊断模型,用于核电站(NPP)的故障分类(Li等人,2022e)。训练数据来自模拟器,并被预处理成3D样本作为输入。生成3D样本的方法如图7所示。主要模型是一个具有3个卷积层的CNN。使用5种不同的功率水平和3种迁移方法进行了实验。当训练和测试水平相同时,诊断准确率最高,超过了99%。准确率受到由不同功率水平引起的领域差异的极大影响。
图7 产生3D数据的方法(Li等人,2022e)
3.1.2 基于特征的深度迁移学习
基于特征DTL旨在通过特征变换将两个领域的特征向量映射到同一个共享特征空间。这样可以有效地减少数据分布不匹配的负面影响。基于特征选择的方法指的是识别源域(SD)和目标域(TD)中的共同特征表示,并实现完整知识的迁移。基于特征映射的方法意味着将领域内的数据从原始的高维特征空间映射到低维空间,低维空间中的有标签源域(SD)数据可用于训练,并且可以实现对目标数据的预测。
迁移成分分析(TCA)是由Pan等人(2011)提出的一种基于特征的传统迁移学习(TL)方法。源域(SD)和目标域(TD)的数据被映射到一个高维的希尔伯特空间中,以最小化两个域之间的数据距离,同时保持它们各自的内在属性。TCA被Tzeng等人扩展到深度神经网络,并通过引入领域混淆损失概念对数据差异进行了全面分析(Zeng等人,2014)。基于TCA的几何和统计对齐方法被提出用于视觉领域适应(Zhang等人,2017)。
考虑到SD中的数据差异和分布不平衡,开发了一种深度多源迁移学习模型用于轴承的四种故障类型的分类(Huang等人,2023)。SD是通过在多种工作条件下获取的原始振动信号获得的。四种不同的状态包含了不同的旋转速度、负载扭矩和径向力。使用MMD方法进行数据选择以获得新的SD。使用集成对齐方法解决分布不对齐问题。在训练阶段完成了领域级和类别级对齐。所提出的深度模型基于具有四个卷积层的CNN模型。通过与传统CNN、单源模型和其他多源模型进行比较,证明了其有效性。对目标工作状态的准确率达到95.08%以上。
Shi等人提出了一种结合1D CNN和迁移学习的智能轴承故障诊断方法,过程如图8所示(Shi和Hou,2023)。包括了门控循环单元(GRU)以更好地捕获时间序列数据中的长期依赖关系。在GRU之后安排的注意力层用于自动选择最相关的特征。该方法在小样本和变化的负载下得到了验证。与没有TL的方法相比,它展示了泛化优势。当目标样本的比例较大时,获得了超过99%的准确率。在目标数据较少的情况下,准确率可以达到97%以上。
图8 基于1D CNN和TL的故障诊断方法(Shi和Hou,2023)
Wang等人使用了一维卷积神经网络(1D CNN)和迁移学习(TL)来完成在变化的旋转速度下带有少量标签的滚动轴承故障分类(Wang等人, 2023c)。图9描述了所提出的诊断方法的过程。使用最大均值差异(MMD)来衡量SD(源域)和TD(目标域)之间特征分布的距离。同时,它被用来确定卷积层和全连接层是否可以进行迁移。进行了五种迁移策略以比较分类性能。结果表明,该方法虽然数据分布不同,标记数据较少,但准确率较高,为99.72%。
图9 基于1D CNN和TL的故障诊断流程(Wang等人,2023c)
由于在多种运行条件下可能存在领域变化,因此提出了深度不平衡领域自适应方法用于轴承故障分类,如图10所示(Ding et al., 2023)。考虑了特征分布和故障类别之间的差异。使用成本敏感学习来缓解不平衡分布。引入了类别对齐以进一步应对类别不平衡。使用边界损失正则化来增强多类任务中少数类的泛化能力。基于一维振动信号和一维ResNet-18模型骨干进行故障诊断。在自建数据集上的实验表明,平均诊断准确率为96.55%,在极具挑战性的任务中准确率超过90%。
图10 基于TL的不平衡轴承故障诊断(Ding等人,2023)
为了补充传统TL中边缘分布对齐的局限性,通过构建一个分布差异度量,构建了一个判别性特征学习框架(Qian等人,2023)。采用西南交通大学轴承、CWRU轴承、RTS转子轴承三个数据集进行方法验证。辛辛那提大学的IMS数据集由于其数据差异较大,被用于进一步探索其有效性。不同负载下的振动信号是诊断模型的输入。一维卷积神经网络被选为整个模型框架的核心。改进的Softmax损失在调节决策边界中表现出良好的性能并带来了具有显著区分度的特征分布,如图11所示。与其他领域自适应方法相比,所提出的方法在使用未标记的目标数据进行跨机器故障识别时,达到了90%以上的高准确率。
图11 从最后一个全连接层学习到的特征分布(Qian等人,2023)
受“靶向治疗”启发,提出了针对跨域诊断的靶向迁移方法(Lei等人,2022)。其原理如图12所示。特征适配使得诊断知识能够迁移到不同的机器上。该研究考虑了由于跨域数据标签空间偏移导致的条件分布差异,以及在进行特征适配时相同故障类型下的局部数据分布差异。重点模型是一个具有4个卷积层的深度卷积神经网络(CNN)。在跨机器迁移诊断上的平均诊断准确率达到了98.31%,显著高于比较方法。深度CNN和深度领域混淆的准确率分别只有69.88%和54.48%。所提出的方法完成了在SD中局部故障诊断知识的选择性迁移,并抑制了跨域诊断任务中的负迁移。
图 12 跨机器故障诊断的目标迁移原理(Lei等人,2022)
针对源域和目标域之间的分布差异,Li提出了结合迁移学习(TL)和卷积神经网络(CNN)的新型智能核电站(NPP)诊断方法(Li等人,2022f)。使用最大均值差异(MMD)来减少特征分布差异,并采用四种核方法来计算特征分布距离。使用RELAP5和SIMULINK模拟器获取高维非线性故障数据。在5个变化的功率水平下模拟了10种不同的健康状况。模型的输入是将模拟参数转换成的29×29矩阵。在80%功率水平的目标域(TD)下,使用高斯核后准确率提高了28.72%。图13中的箱线图显示了核函数对诊断准确率的影响,其中源域来自100%功率水平。特征可视化和收敛性分析进一步证明了高斯核在减少分布差异方面的有效性和优势。为了处理迁移学习中的样本分布差异,Huo等人提出了一个线性叠加(LS)模型用于轴承故障诊断(Huo等人,2023b)。1D CNN被当作基础模型。为了增强迁移学习(ETL)的效果,增强了目标域的损失函数。在江南大学(JNU)数据集上的实验表明,该方法的准确率达到99.80%以上,最高准确率达到100%。不同模型的可视化情况如图14。
图 13 使用不同核函数的诊断准确性(Li等人,2022f)
图14 使用t-SNE的视觉结果:(a) 深度适应网络;(b) 联合MMD;© 改进的联合MMD;(d) LS-CNN;(e) 1D-CNN + ETL;(f) LS-CNN + ETL (Huo et al., 2023b)
由于源域和目标域之间的复杂和差异分布可能导致数据不对齐,Su等人将域间决策差异最小化引入到轴承和齿轮箱的迁移诊断中(Su等人,2023)。通过最小化两个域之间决策结果的差异来减少数据分布差异。使用域指示器来防止同一类别可能的不对齐。设计了核范数来缓解批次内数据不平衡并提高决策差异的鲁棒性能。核心模型是1D CNN,输入是1D振动信号。实验设计在三种条件下,不同速度下的大数据集和小数据集,以及不同电流下的大数据集。通过网格搜索,选择了核范数中的两个关键参数,每个数据集上的精度如图15所示。
图15 使用核范数(Su等人,2023)参数组合在每个数据集上的平均准确率
针对实际域分布差异,提出了基于迁移策略和极限学习机的航空发动机故障识别的新诊断方法(Li等人,2022g)。使用MMD从边缘和条件两个方面减少分布差异。数据集是从涡扇发动机的模拟平台获得的。基于不同迁移策略的两项实验的平均准确率分别达到了89.72%和90.03%。所提出的方法可以准确完成发动机的跨域故障诊断。
由于MMD在DTL中的局限性,开发了一种新的转移诊断方法,包括一种改进的具有度量结构和MMD的域自适应(Xiao等人,2022)。设计了一种软伪标签策略,根据相似性区分样本。在相同机器、不同机器和变化工作条件下进行了多样化的迁移任务。选择ResNet作为基础模型,输入是1D振动信号。通过分析两个域之间的类内和类间距离来评估可分性和迁移性。在大数据集的情况下,该方法表现出更好的性能。在很多迁移诊断任务中实现了99.55%的高准确率。所构建的方法需要从算法优化和方法应用方面进行增强。
针对常见的联邦学习在数据质量和分布方面的局限性,提出了用于轴承故障识别的联邦迁移学习方法(王等人,2023d)。使用动态滤波器消除低质量样本(图16)。采用批量归一化的MMD来减少数据分布差异。提出了动态模型聚合算法以获得最优诊断模型并增强模型的泛化能力。以1D CNN为核心模型,原始振动数据为输入。考虑到实际负载和变化速度的,使用了三个轴承数据集来验证该诊断方法的优势。苏州大学数据集包含了不同的负载情况。CWRU数据集由变化的电机速度组成。JNU数据集包含了有明显差异的不同速度变化。实验涉及实际工业中可能的两种情况:健康状况缺失和错误标记。在15%错误标记的挑战下,诊断准确性仍能达到96%。
图16 提出的联邦迁移学习方法(Wang等人,2023d)
由于协作建模的数据隐私挑战,基于联邦迁移学习(Li等人,2023c)构建了一种机器协作诊断方法。该方法克服了传统联邦学习在不同客户端和单一工作条件下相同数据分布的限制。选择了不同的卷积神经网络(CNNs)作为基础迁移模型。对于源域用户,使用标记的私有数据和共享数据训练深度模型。使用软标签信息传输在多个用户之间进行信息传输。使用熵最小化函数选择诊断决策边界,并实现模型自适应迁移诊断,无需同时分析源域数据(图17)。所提出的模型准确率超过90%,与集中式模型训练方法、联邦平均学习方法和本地训练方法相比表现更佳。该方法可以从不同用户之间传输的数据量要求上进行改进。它将扩展到不同的机器和信号源。
图17 基于联邦迁移学习的协作故障诊断程序(Li等人,2023c)
考虑到对数据隐私性的关注和协作学习的优势,基于区块链配置了一种联邦迁移诊断方法(Zhang等人,2023d)。采用了量身定制的基于共识的方法进行模型优化。该框架不需要源域样本。使用两层1D CNN作为基础模型,1D振动数据作为输入。对于高速列车转向架轴承和转子试验台轴裂缝的故障诊断检测精度达到90%。学习到的特征分布如图18所示可视化。状态标签通过不同的数字表示。红色和蓝色分别表示测试和训练数据。
图18 不同方法学习到的特征分布可视化(Zhang等,2023d)
针对数据隐私和动态领域偏移的问题,Liu等人提出了一种结合联邦学习和广义学习的主动迁移诊断方法(Liu等人,2023b)。原始振动信号通过FFT转换为频域信息,均方根特征输入模型。诊断框架的主要基础是一个稀疏自编码器。引入了一个带有双向GRU的注意力机制,以从原始数据中挖掘重要性。实验使用了三个数据集:轴承、齿轮和转子。在集中式学习中,三个数据集上的准确率分别为99.97%、99.93%和93.04%。在联邦学习中,所提出的模型相较于其他比较方法显示出更高的准确率,分别为99.82%、99.94%和99.85%。
传统迁移诊断方法的前提是基于特定的数据集和领域。Liu等人开发了一种自动化的旋转机械故障诊断迁移方法,通过引入一个广义分类器和一个超参数优化器(Liu等人,2023c)。使用FFT获取振动信号的频率特征,用于故障诊断。使用GRU单元和稀疏自编码器作为迁移框架的结构。实验使用了四种Python库:PyTorch、DeepDA、Optuna和Scikit-Optimize。使用了超过20种智能算法进行性能分析。使用了三个数据集进行验证:单轴承、单齿轮箱和包含轴承与齿轮的混合数据集。一个有趣的地方是,使用小提琴图来可视化预测数据分布,如图19所示。超参数优化的可视化展示在图20中。经过主动迁移和联合验证的广义模型在三个数据集上的准确率超过98%、95%和84%,在跨领域诊断中取得了显著的改进。
图19 使用不同验证方法预测数据分布的可视化(Liu等,2023c)
图20 超参数优化的可视化(Liu等,2023c)
Wang等人开发了一种由振动信号特征向量驱动的转子系统在线迁移诊断方法(Wang等人,2022d)。使用统计方法和小波包分解来提取故障特征。通过ReliefF方法进一步选择敏感特征。考虑到领域数据自适应,引入了迁移组件分析来完成特征迁移。不同方法的结果展示在图21中。所提出的模型在输入6D敏感特征时,准确率高达89.68%,优于使用时域和时频特征的方法。通过交叉操作和交叉机器实验表明其有效性,并优于其他比较的诊断方法。
图21 不同诊断方法的分类准确性(Wang等人,2022d)
由于传统轴承诊断方法对于复杂工作操作的局限性,Qian等人提出了一种通过整合轻量级1D DenseNet和联合分布适应的迁移方法(Qian等人,2022b)。迁移结构如图22所示。改进的DenseNet用于从1D振动信号中提取特征。使用领域适应来解决特征分布的差异。在两个轴承数据集上的实验表明,诊断准确率分别达到98.50%和88.56%。所有测试迁移任务的平均准确率达到93.53%,在变化的工作条件下展现了优越的分类和聚类性能。
图22. 基于DenseNet和联合分布适应的迁移框架(Qian等人,2022b)
由于当前迁移诊断方法没有包括源领域中未见故障和目标领域中不平衡的健康状况,Yang等人开发了一种用于齿轮箱和轴承故障诊断的多源迁移方法(Yang等人,2022)。设计了一个具有部分分布适应的子网络来应对未见故障。构建了融合模块用于整合不同子网络的决策结果。可视化相似性矩阵表明了对已知和未知故障识别的正确性。所提出的迁移方法被证明对于跨条件和跨机器故障分类是有效的。它也对不平衡诊断案例表现出强大的鲁棒性。
为了提高迁移模型提取可区分特征的能力,Li等人开发了一种用于轴承跨领域故障识别的多视角迁移架构(Li等人,2022h)。从空间、通道和序列三个方面实现了更有效的特征提取。引入了注意力机制来构建一个考虑空间和通道的特征增强网络,如图23所示。设计了一个双向长短期记忆网络(BiLSTM),基于序列知识提取特征。在变化的工作条件下,所构建方法在三个轴承数据集上的诊断准确率分别为98.558%、99.465%和98.367%。
图23 提出的多视角迁移框架(Li等,2022h)
针对稀缺故障数据和低识别准确率的问题,Liu(2022)提出了一种将分层极限学习机和迁移学习(TL)集成的复合方法,用于飞机引擎的故障诊断。注意力机制被用于筛选敏感特征。基于RMSProp算法构建了一种新的自适应学习率优化方法。所提出的方法在诊断性能上超过了其他深度模型方法,准确率达到了97.9%,并且使用了四种数据源。此外,从敏感性结果来看,它展现了更好的迁移效果和更少的计算时间。
为了解决在变化的运行条件下轴承故障识别的问题,提出了一种新的迁移模型,该模型基于带有扩张卷积和动态多层感知器的DBN(Su等人,2022)。DBN被用来挖掘迁移特征。为了减少数据分布差异,采用了领域自适应和伪标签。在不平衡案例和变化运行状态下,所提出方法的有效性得到了证明。两个实验的平均识别准确率分别达到了99.05%和96.55%,分别比常见的DBN提高了17.37%和14.65%。
由于在堆叠自编码器(SAE)中存在梯度消失和跨域诊断准确率低的问题,Luo等人提出了一种使用改进的SAE进行滚动轴承故障识别的新方法(Luo等人,2022)。改进的模型结合了卷积直连方式和领域融合的方法。考虑到原始振动信号中的噪声影响,将FFT的频域数据作为输入。使用了三个轴承数据集进行实验验证,包括公共数据集和测试数据。所提出方法在相同数据集间的迁移任务中达到了99.4%的诊断准确率。在跨机器诊断中准确率达到了99.95%。该方法在变化运行条件下不同机器的轴承诊断中表现出了良好的性能。将进一步探索移诊断方法对未知缺陷的扩展。由于工业中轴承标记数据严重缺乏,为跨不同机器进行轴承故障识别,建立了一个改进的深度迁移自编码器,如图24所示(Shao等人,2020)。对深度模型进行了两项改进,以使其学习到更具代表性的诊断信息。一是基于可扩展指数线性单元设计的激活函数。二是基于非负约束修改的成本函数。基于模拟数据和实验数据的诊断准确率分别达到了98.50%和89.48%。
图24 基于SAE的集成卷积直连和领域融合的迁移网络(Shao等人,2020)
为了改进跨域故障诊断,提出了一种结合子域适应的多源迁移方法,用于旋转机械的故障识别(Tian等人,2022)。使用多分支网络设计和局部MMD来减少领域分布差异。该网络结构是基于一维CNN的。在轴承和齿轮箱的三个数据集上验证了该方法的有效性。它比其他智能方法具有更优越的性能。此外,它对小样本和不平衡样本的问题表现出了强大的鲁棒性。平均准确率分别为99.87%、99.60%和99.67%,相较于传统CNN模型,分别提高了12.21%,18.36%和22.95%。在只有1%目标数据的多源情况下,达到了98.30%。在不平衡情况下,平均诊断准确率达到了97.35%。
3.1.3 基于网络的深度迁移学习
基于网络的方法在图像处理中最广泛使用,包括部分冻结和整体微调。这是通过将预训练网络SD的部分迁移到TD来实现的,包括原始网络结构和参数。Yosinski等人(2014)讨论了深度神经网络中特征迁移的本质。Oquab等人(2014)使用大量标记数据训练了一个卷积神经网络(CNN),并将其迁移到视觉识别任务中。对于有限的数据和标签,Long等人(2016)探索了一种基于残差迁移网络的无监督迁移学习(TL)模型,用于图像识别。Chang等人(2018)构建了一个基于多尺度卷积稀疏编码的无监督TL模型,用于学习可迁移的基础知识,并应用于生物医学领域。Han等人(2019)基于CNN的预训练和微调构建了一个TL框架,用于齿轮箱的故障诊断。Qian等人(2021)使用预训练的卷积自编码器和跨域自适应将知识迁移到目标域,用于行星齿轮箱的故障诊断。
考虑到不同特征分布和模型对大量训练数据的需求,Zhao等人(2023a)提出了一个混合迁移诊断方法,引入了逻辑麻雀搜索算法进行结构优化,并使用DBN进行故障识别。模型的输入是通过FFT从振动信号转换来的频域数据。通过使用少量辅助样本进行微调,减少了对训练数据量的依赖。当为每种类型提供50个训练样本时,模型实现了100%的诊断准确率。该方法对改变工作状态和工作条件具有良好的鲁棒性。然而,模型在区分缺齿和断齿、正常和偏心齿轮健康状态方面表现不佳。由于预训练模型可能无法在复杂的工业条件下保持良好的效果,因此构建了一种融合TinyML和TL技术的新故障诊断方法(Asutkar等人,2023)。模型的输入是从振动信号中提取的十个特征。主模型是一个简单的1D CNN,包含两个卷积层。使用随机搜索和5折交叉验证优化了模型超参数。模型使用CWRU轴承数据集作为SD进行训练,并使用TD进行微调,包括实验室中的电机数据集和智能维护系统(IMS)轴承数据集。该模型在微控制器板上进行推理,计算时间短,内存小,精度高。该探索将从进一步简化的模型、信号处理和应用于微控制器的方法中进行。
由于难以获取和标记故障数据以及黑盒模型的可解释性问题,一种新的用于轴承和齿轮箱故障分类的方法被提出(Brito等人,2023)。基于振动信号,使用带有正弦函数的波形方程获得了合成故障信号,如图25所示。随后,信号经过数据增强和Z-score标准化处理。将频率域数据作为输入。使用早停法训练了1D CNN,并选为故障分类模型。使用梯度加权类激活映射分析特征频率与分类结果的相关性。三个实验的准确率分别达到了98.1%、92.5%和95.5%。
图25 Brito等人(2023)提出的使用合成数据的可解释迁移诊断程序
由于在NPP中获取故障数据极其困难,因此建立了一种基于参数的TL诊断方法,如图26所示,该方法结合了GRU和注意力机制(Qian和Liu,2023)。使用FFT得到的频域谱作为输入。分析使用了三个数据集:CWRU、康涅狄格大学齿轮箱数据集和通过个人电脑瞬态分析器(PCTRAN)软件模拟的NPP系统故障数据。进行了三次实验,考虑了不同的工作条件、变化的旋转机械和故障级别。该方法与SVM、CNN和随机森林进行了比较。其准确率高达100%,与其他方法相比,即使在故障数据较少的情况下,也具有优势的诊断性能。
图26 基于GRU和注意力机制的迁移诊断方法(Qian和Liu,2023)
由于常见的智能诊断方法与人类的知识学习方式不同,Yang等人开发了一种结合深度强化学习和迁移学习的端到端诊断方法(Yang等人,2023c)。旋转设备的故障诊断原始振动信号被用作诊断分析的输入。深度Q网络的参数迁移是从卷积残差自编码器到CNN。除了更新频率外,其他三个超参数对方法的性能有很大影响,即批量大小、信号量和实验缓冲区。与其他智能方法相比,所提出的方法达到了超过99%的准确率,并显示出明显的优势。
为了构建一个在训练数据不足的情况下精确且最优的轴承诊断模型,Wang等人开发了一种基于强化迁移学习的自适应优化算法(Wang等人,2022e)。强化学习模型由LSTM作为控制器和具有四个卷积层的CNN作为子模型组成。通过在源域中使用策略梯度方法更新参数来选择最佳的子模型。参数传递从源域到目标域进行。最高的测试准确率达到了95.20%,仅使用1个标记的训练数据,比CNN提高了28.8%。有了10个标记的训练样本,准确率达到了99.60%,比CNN提高了20.8%。需要改进的是所选子模型的局部优化和高准确率的折衷计算成本。针对现有智能诊断方法依赖于手动建模和参数调整,以及对不同诊断案例泛化能力弱的问题,Zhou等人提出了一种分层并行诊断框架,通过自动搜索具有异构迁移性能的高精度模型(Zhou等人,2022)。引入了神经架构搜索和模块化设计来实现异构迁移的性能(图27)。使用权重共享机制来应对耗时的搜索并提高自动建模的效率。由于LSTM可以抑制梯度消失和梯度爆炸,因此被选为控制器。输入是1D振动信号。在齿轮箱和轴承数据集上的实验显示,准确率高达100%,耗时少,优于基于强化神经架构搜索的其他诊断方法。
图27 提出的分层并行网络流程图(Zhou等人,2022)
针对实际故障诊断场景中的小样本问题,Dong等人提出了一种新型的结合动态模型的迁移轴承诊断方法(Dong等人,2022)。使用轴承的动态模型来产生足够的仿真样本。使用1D仿真信号获得了预训练的1D CNN。通过整合参数传递方法最终实现了故障诊断。使用了八种不同的迁移策略,包括微调、随机初始化与训练、冻结以及混合方法。所提出的这种方法与其他方法相比,展现了较高的迁移效率,如图28所示。此外,基于CNN的模型执行了更有效的参数迁移,并减少了两个领域之间的分布差异。
由于航空发动机故障状态下的数据较少,Zhao等人提出了一种基于极限学习机和迁移策略的跨域诊断方法(Zhao和Chen,2022)。构建了两种迁移方法,即单阶段和双阶段方法,如图29所示。
图28 不同参数传递技术的传递效率(Dong等,2022)
图29 基于极端学习机的提出的两阶段迁移方法(Zhao和Chen,2022)
上述两种方法的详细优化函数在表3中展示。所提出的双阶段方法与其他方法相比,达到了最高的诊断准确率。在四种工作条件下,准确率达到了96.40%,比基准方法提高了17.63%。所提出的这种方法在不同噪声程度的干扰下,对于航空发动机故障诊断仍然表现出良好的鲁棒性。提出了一个具有类级别匹配功能的三级TL模型用于滚动轴承故障诊断,并通过使用不同的迁移任务将诊断准确率提高了12.95%(Huo等人,2023c)。
表 3 两种方法的优化函数组成部分
3.1.4 基于对抗的深度迁移学习
基于对抗的DTL是一种使用GAN或其他对抗技术来缩小领域间差异的方法,从而增强TD的学习效果。GAN由Goodfellow等人提出,旨在通过同时训练两个合作且竞争的深度神经网络来解决无监督学习问题(Goodfellow等人,2014)。Radford等人将CNN与GAN结合,以提高训练稳定性和生成样本的质量(Radford等人,2016)。Kim等人结合深度自编码器和迁移GAN,实现了高准确率的恶意软件检测(Kim等人,2018)。迁移GAN也被用于在变化条件下进行轴承故障识别(Jin等人,2019)。通过引入联合MMD和对抗自适应判别器,基于一维残差网络的迁移诊断模型被构建用于齿轮箱和轴承的故障识别(Jiao等人,2020)。Zhang等人提出了一种联邦迁移诊断方案,以克服领域偏移和数据隐私带来的挑战(Zhang和Li,2022)。通过使用不同的深度模型为不同用户改进信息隐私,设计了初始化和通信程序以减少领域差异对诊断性能的影响。通过构建预测一致性技术增强了方法的鲁棒性。模型的框架基于CNN,输入是通过FFT获得的振动数据的频率谱。不同的迁移任务表明,所提出方法在测试实验中的诊断准确率约为90%,高于其他智能故障诊断方法。
DT可以被视为连接虚拟模型和物理机器的美妙桥梁。它可以用来解决实际中故障数据的稀缺性以及来自不同工作状态的诊断挑战。Wang等人使用MATLAB中的Simscape建立了DT模型,生成故障数据作为SD(图30),并采用对抗迁移策略进行三联泵的故障分类(Wang等人,2023e)。模拟了四种常见故障:入口堵塞、磨损轴承、密封泄漏和绕组断裂。诊断方法基于原始压力信号。理论模型是一个深度自适应对抗模型。诊断准确率在电机和测功机发动机驱动情况下分别达到了99.50%和98.78%。
图30 三联泵DT辅助迁移诊断流程图(Wang等人,2023e)
为了解决可能同时存在的知识遗忘和数据分布差异,构建了一个连续传输诊断框架,用于汽车变速器轴承和传动的故障分类(Li等人,2023d)。在两个领域中都使用了群体算法进行样本选择。引入了动态权重聚合来学习和保留诊断知识。对抗技术被用来解决SD和TD之间的分布差异。ResNet模型被用作特征提取器,输入是从不同状态获得的振动信号。通过多个阶段完成了超过90%的平均识别准确率。所提出的方法在准确性和鲁棒性方面显示出明显的优势。
与常见的单机迁移诊断不同,Wu等人开发了一种新的对抗迁移模型,通过不同机器之间的知识迁移实现跨机器诊断(Wu等人,2023)。通过将不同机器的轴承数据作为多个SD来实现迁移。使用条件分布辅助的新对齐方法来减少数据分布差异。在SD的数据控制中引入了单调重要性规范。利用FFT将振动信号转换为频率信号,再进行诊断。使用两层神经网络作为特征提取器。使用来自不同机器的三个轴承数据集进行实验。随着标记目标样本的增加,诊断方法达到了更高的准确率。当每个故障类型的标记目标样本增加到3个时,在一个诊断任务中达到了100%的准确率。
对于没有故障数据的情况,基于1D循环GAN开发了一种数值模拟驱动的迁移方法,用于轴承故障诊断(Liu等人,2023d)。通过构建轴承的动态模型获得了正常和故障条件下的模拟信号。1D循环-GAN由两个镜像对称结构组成(图31)。它被设计用于模拟信号的转换和真实故障的识别。与SVM、ELM和CNN相比,转换信号被验证可用于故障诊断。基于转换信号的测试准确率达到了80%以上。所提出的方法对正常状态和故障状态的识别准确率超过了91%。对于多故障情况,获得了超过85%的平均准确率,这比最先进的迁移方法还要高。
图 31 1D循环-GAN的结构(Liu等人,2023d)
关于SD对TD特征匹配中类别决策边界的影响,基于领域自适应的增强迁移CNN被提出用于轴承故障诊断(Chen等人,2021)。引入了对抗训练以最大化两个分类器之间的分类差异,并最小化两个领域之间的特征分布差异。特征提取器是一个具有4个卷积层的CNN,输入是1D振动信号。该方法在不同的诊断任务上达到了94.29%的平均准确率。即使在额外噪声下,它仍然达到了82.51%的诊断结果,并表现出更好的分类和泛化性能。由于实际中难以获得具有标签的新操作状态或未知燃气轮机的足够故障数据,Liu等人提出了一种基于对抗判别领域自适应策略的迁移诊断方法(Liu等人,2022)。如图32所示。特征提取是用一个2层CNN完成的。模型的输入是振动信号。要迁移的模型是从源领域监督训练中获得的。通过模型迁移减少了训练成本并提高了性能。通过与目标领域的对抗训练来减少分布差异。在交叉条件实验中实现了96.45%的诊断准确率,并在图33中展示了不同诊断方法的分类可视化。在交叉机器诊断案例中,平均准确率达到95.13%。
图32 基于对抗判别领域自适应的燃气轮机转子系统迁移诊断方法(Liu等,2022)
图33 不同诊断方法的t-SNE降维(Liu等,2022)
针对实践中训练数据不足的问题,提出了基于实例的迁移方法用于元建模和轴承故障识别。引入了一种具有域自适应的域对抗网络来获取辅助目标域(Kim和Lee,2022)。使用影响函数选择有用的辅助数据以获得更好的数据集。基础模型是1D CNN,输入是FFT的振动信号频率域。诊断准确率达到98.250%,与传统领域对抗网络相比提高了1.222%。针对当前深度模型在交叉条件和变化数据分布方面的局限性,提出了基于多信号集成和注意力机制以及深度对抗网络的融合迁移诊断方法用于轴向柱塞泵的故障识别(He等人,2022)。该方法构建了用于特征提取的残差模块。研究了四种常见的故障类型:活塞故障、滑履故障、阀板故障和回油盘故障。实验分析收集了振动信号和声信号。在许多跨领域迁移任务中,平均诊断准确率达到98.5%。基于1D振动信号,构建了一个动态迁移对抗模型用于风力涡轮机和轴承在变化操作负载下的故障诊断(Wei等人,2021)。涉及全局领域和局部领域的分布,并使用动态对抗因子完成了前者。
3.2 基于2D输入的迁移诊断应用
考虑到2D输入可以充分利用深度神经网络在特征提取方面的优势,基于2D图像或矩阵的迁移模型已被构建用于故障诊断(Li等人,2023e;Gao等人,2021;Liu等人,2023e)。这些通用方案是通过使用不同的数据预处理方法将原始信号/参数转换为灰度或彩色图像来设计的。
基于声音信号,构建了一个基于ResNet-50的迁移模型用于液压泵的诊断(Zhang等人,2023e)。使用带有Z加权的声音级计收集原始声音信号。声音信号经过预处理以进行信号分析。使用改进的集成经验模态分解和最小冗余最大相关性方法进行分解和降噪。输入是通过短时傅里叶变换(STFT)获得的窄带光谱图的灰度图像。该方法通过在6台液压泵上的实验进行了验证。研究了包括泵和滚动轴承组件在内的七种故障模式和一种正常状态。迁移诊断准确率达到了86.1%和90.8%。基于多信号融合和集成学习的智能诊断可以进一步研究以进行新的探索。针对单通道信号信息不足的问题,Zhang等人开发了一种结合多通道信息融合的DTL方法,用于轴承和齿轮箱的故障识别(Zhang等人,2023f)。基础深度模型是ResNet,输入为多通道图像。原始信号是通过使用三个振动传感器获得的。通过连续小波变换(CWT)整合振动信号的时间-频率特征获得多通道图像。在三个数据集上的识别准确率测试超过99%,包括滚动轴承故障和齿轮箱故障。在CWRU数据集上,变化负载下的迁移诊断准确率达到93.12%。
为了解决故障样本不足的问题,构建了一个新的TL框架,称为分类器约束域自适应网络,用于转子裂纹故障诊断(Xiang等人,2023)。网络结构如图34所示。
图34 基于TL构建的网络模型(Xiang等人,2023)
从动态模型获得的生成样本被用作SD数据。分析了不同的转子裂纹水平。工作状态的变化包括三种运行速度。使用了二维多层卷积网络进行特征提取,使用多核MMD来减少特征的分布差异。配置了两个分类器以减少误分类。在相同速度下从模拟到实验的迁移中实现了99.78%的平均准确率。在不同速度下进行迁移时,诊断准确率为92.67%。Zhao等人通过将残差注意力机制引入CNN模型,构建了一种新的轴承故障识别的迁移学习方法(Zhao等人,2023b)。模型的输入是从振动信号转换来的二维灰度图像。使用了四种策略来评估所提方法的诊断性能,包括深度适应网络、相关性对齐、联合适应网络和DAN。迁移学习的目标如下,源域的特征空间和类别空间与目标域相同,但概率分布不同。源域由标记样本组成,而目标域由未标记样本组成。使用了电力传输故障诊断测试台和高速列车测试台来验证该方法。结果表明,在可变速度以及变化速度和负载下实现了迁移学习。此外,当只有速度变化时,准确率更高。该方法最高准确率超过95%,优于准确率低于90%的普通CNN。
由于环境噪声和变化负载的影响,Lv等人提出了轴承故障识别的迁移诊断方法(Lv等人,2023)。主要模型是对DenseNet的改进,将ReLU激活函数替换为LeakyReLU。该方法通过使用添加噪声的CWRU数据集进行了验证。基于振动信号的二维灰度图像,实现了在小数据和变化负载下的跨域故障诊断。诊断准确率超过90%。证明该方法更适合低噪声的故障数据。
针对轴承的自适应故障诊断构建了一种新的元迁移学习方法(Lei等人,2023)。嵌入先验知识以改进在变化工作条件下特征学习。该方法在图35中使用计算阶次跟踪进行数据增强。基于多尺度卷积核、注意力模块和残差块的多尺度特征编码用于特征提取。在1-shot故障诊断实验中,作为极度稀缺情况,最高平均准确率为83.04%和95.89%,在5-shot实验中为87.74%和98.57%。在变化的伪速度下进行了跨域故障诊断。该方法通过使用信息融合提高了诊断准确性。
图35 基于元迁移学习的自适应轴承故障诊断方法(Lei等人,2023)
为了增强少量样本的迁移诊断的泛化能力,提出了深度元迁移学习方法(图36)用于轴承的小样本故障诊断(Li等人,2023f)。采用参数调制方法进行模型参数的自适应调整。模型结构的骨干是带有注意力机制的ResNet 12。输入是通过CWT获得的振动信号的时间-频率图像。进行了1-shot和5-shot实验,三个轴承数据集上的平均诊断准确率分别达到99.08%、95.86%和77.74%。
图36 基于带注意力机制的元迁移学习的故障诊断方法(Li等人,2023f)
针对训练样本不足的问题,Zhong等人提出了一种新的迁移诊断方法,该方法结合了卷积生成对抗模型和谱归一化(Zhong等人,2023)。输入是使用CWT的振动信号的二维图像。基础深度模型是VGG-16。使用自注意力为模型训练获取合成数据。该方法在CWRU和自建数据集上进行了验证。测试数据集的结果表明,使用复合数据集时准确率达到了99.72%,引入数据增强后准确率达到了99.84%。相比之下,提出的方法仅使用2.9%的原始样本就实现了95%的识别准确率。对于跨机器诊断,基于多级域自适应开发了一种新的迁移网络用于轴承故障识别(Wan等人,2022)。在共享特征提取中引入了分层解码操作以提高性能。在域自适应中设计了注意力机制以抑制负迁移。使用ResNet进行特征提取,输入是通过STFT得到的2D时频图像。在包括6种不同迁移识别任务的三个轴承数据集上进行了实验。提出的方法实现了平均诊断准确率为91.05%,展现了更好的知识学习和迁移能力。由于基于1D振动信号的诊断可能无法展示CNN的强大学习能力,而基于2D图像的诊断依赖于信号分析方法,Hou等人提出了一种新颖的迁移诊断方法,具有自适应的信号到图像转换(Huo等人,2022)。如图37所示,主要的深度模型是1D和2D CNN。模型的输入是1D振动信号。在卷积层和全连接层分别使用了两种不同的损失函数,即CORAL和结合了多核最大均值差异(MK-MMD)和交叉熵的联合函数。在两个轴承数据集上,5个任务的平均诊断准确率分别达到了99.98%和99.63%。它在跨域案例中超越了基于深度模型的其他故障诊断方法。将提出的方法扩展到跨设备和不平衡条件下的研究将被进一步探讨。
图37 基于CNN的自适应维度转换的传输模型(Huo等人,2022)
Yu等人构建了一种基于特征的迁移诊断方法,以解决当前基于深度模型的方法在处理跨条件、噪声效应和数据不足方面的局限性(Yu等人,2022)。使用了小波包变换(WPT)来建立有效的2D输入,因为它具有多尺度时频分析的能力。使用了MK-MMD来减少领域分布差异。使用了2D ResNet进行特征提取。在一个数据集上,在噪声干扰下的平均准确率为98.59%,比未使用WPT的方法高3.34%。在另一个具有不同噪声级别的实验中达到了97.14%,与无WPT方法相比提高了3.83%。由于NPP中各种功率水平下的大量数据分布,Wang等人提出了基于ResNet-18的新型迁移方法用于系统故障诊断(Wang等人,2022f)。原始数据是通过PCTRAN模拟收集的。输入是使用数据填充从数据序列转换成的2D图像。所提出方法的准确率达到了97.51%,比传统CNN高25.95%。
由于工作条件变化和故障变化带来的困难,Ma等人构建了一个决策树(DT)模型,并使用增强的元迁移学习方法进行复杂轴承故障诊断(Ma等人,2023b)。使用了完整的模态分解进行DT的模态参数识别。元迁移学习的流程图如图38所示。建立的DT如图39所示。使用虚拟DT模型获取故障模拟样本,准确率达到了95.685%。使用STFT的时间频率图像作为输入。主要模型是深度神经网络和深度残差网络ResNet。引入领域自适应和注意力机制,迁移模型的准确率达到了95.18%。
图38 元迁移学习框架(Ma等人,2023b)
图 39 轴承试验台的DT模型(Ma等人,2023b)
4 结论与展望
本综述介绍了迁移学习的基本原理和多种类别。详细概述了迁移学习的重要应用,特别是在旋转机械的故障诊断方面。从输入类型和迁移分类的角度讨论了相关的诊断案例。基于1D原始样本和2D图像,通过不同的转换方法,包括轴承、齿轮、齿轮箱、转子、航空发动机、涡轮和泵机械,实现了机械故障诊断。深度迁移学习策略结合了深度模型强大的特征挖掘能力和迁移学习对弱训练数据的需求。在跨领域、变工况、跨设备、少量样本、稀有标记样本和不平衡数据分布的诊断任务中取得了进展和成就。
迁移学习克服了传统深度模型在大量数据和计算能力方面的限制,并展示了训练模型的强大泛化能力和训练过程的鲁棒性。对于更复杂的诊断任务以及变化甚至极端的操作条件,探索更高效的旋转机械故障诊断方法是具有挑战性和意义的。这些方法如下:
(1) 对于未见过和未知的故障诊断,基于自适应多源域的开放集故障诊断方法的泛化将是未来对多源不一致标签空间的探索方向。寻找一个具有有效度量的最优强化学习模型来结合多个模型和多个领域是有价值的。模型的新型实例迁移方法和自我学习能力也将是一个潜在方向。
(2) 使用动态仿真模型应对小样本问题,将从跨领域、跨设备诊断和多样化的动态模型的角度进行尝试。生成假数据所需的计算资源需要减少。为了追求计算成本和诊断准确性的权衡,输入类型、迁移模型的简化以及数据预处理方法的选择等许多关键因素值得进一步全面考虑。
(3) 为了提取区分性和全面的特征,可以从多个角度和多种信息融合进行跨领域诊断。此外,迁移模型的超参数优化可以进一步研究。迁移诊断的可扩展性和泛化能力需要增强。
(4) 在实际工程中,多故障耦合条件是一个常见问题,但难以检测和识别。因此,将迁移学习扩展到更复杂工作情况下的复合故障是值得认真和深入考虑的。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。