域偏移下的小样本学习:用于瞬态转速变化下故障诊断的时间序列注意力对比校准Transformer

本文介绍了一种针对瞬变工况下小样本故障诊断的创新方法,即注意力对比校准Transformer(ACCT)。通过Transformer处理时间序列数据,捕捉低级特征并建立全局依赖,同时利用数据增强和无监督对比学习提升模型泛化。实验结果显示,ACCT在不同瞬态工况下表现出色,优于其他Transformer变种,展示了在工程场景中的实用价值。
摘要由CSDN通过智能技术生成

0 写在前面

本文是对智能故障诊断领域文章 Few-shot learning under domain shift: Attentional contrastive calibrated transformer of time series for fault diagnosis under sharp speed variation 的解读与推荐。

关键词:故障诊断,瞬变工况,Transformer,小样本学习

文献信息

S. Liu, J. Chen, S. He, Z. Shi, and Z. Zhou, “Few-shot learning under domain shift: Attentional contrastive calibrated transformer of time series for fault diagnosis under sharp speed variation,” Mech. Syst. Sig. Process., vol. 189, p. 110071, Apr. 2023, doi: 10.1016/j.ymssp.2022.110071.

亮点与贡献

(1)探究了Transformer(编码模块)架构更多的工程应用可能性:在不考虑跨域解缠的情况下,提出了一种适用于小样本域偏移故障诊断的时间序列Transformer。我们强调,所提出的方法简单地配备了一般的技巧,但即使在瞬态转速变化下,很少的训练样本也产生出色的故障诊断性能。
(2)开发了Transformer架构的灵活可操作性:Transformer在CV、NLP领域往往需要大量数据以及强大算力支撑,但本文证明了其一般化形式在小样本场景中也可以获取不错的效果。本文发表前,Transformer架构也有用于诊断相关工作,但仍用于时频图等图像,且多用海量数据训练,没有跳脱CV、NLP传统应用思维限制。本文魔改直接用于时序数据,相比图像数据,对算力要求更低。
(3)提供了一种Transformer架构work的理论假设:核心是Vision Transformer(ViT)中的patch embedding操作,这一操作原本是图片数据仿照NLP中的词向量嵌入(一个完整句子划分为若干单词,每个单词进行向量嵌入)。图片数据天然就是一整个,不像若干单词组成的句子。怎么办?人为切割!划分为 n × n n \times n n×n的格式不就行了嘛。然后每个划分出来的单元再嵌入,剩下运算与经典Transformer嵌入模块大差不差了。ViT由此打通了领域间的数据壁垒,有一统范式的味道了,厉害👍。本文同样采用了patch embedding操作,但在机械工程领域呢,怎么解释其有效性呢?划分单元,划分单元!划分单元!是不是跟有限元中的微分思想(数学的积分思想)异曲同工。简单回想下,计算一条XY平面中一条曲线与X轴之间区域面积的时候,划分为若干矩形,计算每个矩形面积在求和,矩形划分得够细的时候,越近似于真值。将曲线下面积转化为矩形面积计算,好了,现在这条曲线就是条转速曲线,那么每个矩形是不是就可以认为是恒定转速下的采样结果,见图1。所以说 patch embedding 时划分的patch越小,理论上效果应该越好。本文讨论部分也进行了消融实验,与猜想几近。因此,我们认为可以用有限元微分思想来解释Transformer架构在瞬态工况下的天然优势。但是这并不hard,只是思想上相匹配,实验结果确实证明了其work better,仅此而已,提供一种思路。
(4)配置了Transformer架构的数据增强策略:为了克服过拟合效应,采用了基于区域斑块混合的数据增强策略,产生了不同的训练样本。
(5)在不增加大量额外开销的情况下,基于随机深度的多头注意层构造正、负实例对用于对比学习,对多层级的Transformer注意力学习过程进行校准。

图1 一种Transformer架构work的理论假设

1 简介

急剧转速变化引起的数据样本域偏移现象不满足稳态条件的一般假设,这对现有的大多数智能故障诊断方法提出了严峻挑战。此外,工业应用中的数据稀缺也进一步影响了诊断的准确性和可靠性。为了打破瞬态工况下小样本故障诊断窘境,我们开发了一种时间序列注意力对比校准Transformer(ACCT)。

首先,使用多个卷积层捕获低级局部结构特征。然后,将Transformer应用于分割的patch序列以建立全局依赖关系模型并提取领域不变特征。同时,采用基于CutMix的数据增强策略来提高泛化能力。此外,为了获得更具区分性的特征表示,我们设计了一种基于无监督对比学习的正则化方法,用于校准注意力分布。

结果表明,Transformer架构在分析域偏移的时间序列数据具有独特优势,无需刻意考虑额外的跨域解缠模块。在三个速度瞬态条件下的小样本故障诊断案例研究中,所提出的方法优于几种先进的Transformer。

1.1 动机

目前机械故障诊断领域的大量研究都基于转速恒定的一般假设,即独立且同分布假设。但在实际应用中,时变转速运行工况在旋转机械中普遍存在,尤其是在设备启停阶段。此时,该阶段信号征兆与故障模式之间的映射关系变得更加复杂。具体来说,在急剧速度变化下的振动信号会以复杂的调制形式表征,这在频域上显示为强烈的边频带进而导致频谱模糊。然而,当滚动轴承处于急剧转速变化工况下时,更容易激发和凸显隐藏的故障特征。此外,在电机启动过程中的分析对于早期故障损伤识别与预警具有重要意义。因此,对速度瞬态条件下的故障诊断引发了大量的学者关注。

1.2 模型

本质上就是在Transformer中的编码模块添加了对比学习模块,来校准注意力学习过程,以获取更佳性能

1.3 数据集

采用了三种瞬态工况下的数据集,SQV和PBS分别是实验室故障模拟数据集,HSR高铁数据集来自于工程实际采样。
SQV数据集之前公开过,感兴趣的朋友们可以关注下:变转速Benchmark Dataset——SQ变转速振动信号数据集(SQV dataset)
目前PBS还有HSR数据集暂未公开打算。

PBS试验台

HSR数据集采集过程

1.4 实验结果

效果还是不错,相比于其余Transformer变种。更多试验结论可以参考论文。
HSR数据集实验结果的t-SNE可视化

1.5 讨论

对比学习模块的消融实验结果如下所示,上面一层(abc)分别是所提方法在SQV、PBS、HSR数据上学习到的注意力矩阵(训练好的模型最后一层注意力矩阵),下面一层(def)分别是没有对比方法模块的所提方法在三种数据集上的注意力矩阵。同列的两张图分别是同数据集上的所提方法结果(上)和没有对比方法模块的所提方法结果(下),看的时候上下对比。
可以看到,在添加了所提出的基于对比学习的注意力校准模块后,上层相比对下层在原本注意力权重高的地方更佳显著了,可以认为所构建的基于对比学习的注意力校准模块强化了学习特征。
对比学习模块的消融实验结果

2 源码

后面会整理下释放出部分核心代码供大家参考。感兴趣的朋友可以关注下。

3 未来工作

所提出的方法弥补了基于一维时间序列的 Transfoemer 故障诊断研究的不足。既考虑了速度急剧变化导致的数据分布域偏移,又考虑了工程场景中的小样本条件,显示出强大的潜力和应用前景。然而,使用多个 Transfoemer 块进行堆叠的结构仍然耗费大量计算资源。在未来的工作中,缓解这一问题的关键是使 Transfoemer 块能够进行有效而简短的注意力计算。
另外,仍需要更多关注可解释性工作。

  • 22
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值