可解释人工智能在工业智能诊断中的挑战和机遇:归因解释

人工智能(Artificial intelligence, AI)和深度学习(Deep learning, DL)在机械设备状态监测、强弱电设备管理、化工过程控制等研究领域中都取得了突破,并逐渐赋能融入到工业应用中。虽然 AI算法在各种模型设计等方面研究迅速,但由于算法缺乏可解释性,智能诊断模型在风险敏感工业领域中的实际应用常受到研究人员与运维人员的质疑。因此,AI 模型的弱解释性已经成为制约智能诊断模型工业应用的瓶颈之一。可解释性对智能诊断模型的使用和设计都具有重要意义。可解释 AI(XAI)研究是当前 AI领域的重要议题。

问题的背景

当前 AI 模型难解释的原因之一是在于人很难理解非线性高维空间中的映射关系。一些低维空间中的朴素直觉难以适用于高维空间,因此归因解释XAI 技术的主要任务在于将这种非线性高维关系简并为线性低维关系。对于工业智能诊断而言,非线性高维问题更加突出,监测数据具有多尺度、跨尺度特性,对同台设备可能同时存在高频快变与低频缓变两种响应频率差异跨度大的监测信号。

另一个影响归因解释XAI技术在工业智能诊断中应用的因素是复杂机械系统的知识表征精度低。专家知识大多只能定性地判断机械系统的状态。由于工业智能诊断大多面向的是运行中无法进行拆解检查的复杂设备,间接测量已经成为当前的主流测量技术,这导致数据驱动的智能模型难以描述机械设备内部的健康状态;而基于物理建模、信号分析等的知识模型虽然能捕捉复杂系统的主要演化规律,但在定量分析上存在短板。由于 XAI 技术依赖外部知识源评估 AI 模型的可解释性,这促使了归因解释技术倾向于利用简单的、抽象的知识源来反馈可解释性。

方法的概述

(一)基于注意力机制的归因解释

人类视觉系统在观察外界信息时,会自动聚焦于感兴趣区域并抑制不相关的信息。基于深度学习的注意力机制类似于人类视觉系统,可以从输入信息中筛选出利于模型预测的特征并赋予其更高的权重。基于注意力机制的事后可解释方法通过可视化注意力权重解释信号特征对模型决策的贡献。具体来讲,在深度网络中融入注意力机制,在训练过程中通过反向传播算法优化网络,注意力权重会自适应为输入信号的特征分配权重。注意力权重越高,图 2 展示了一种通用的注意力架构,其中键矩阵 K 是网络提取的信号特征表示,查询向量 q 是与模型任务相关的向量或矩阵。

在这里插入图片描述

值矩阵 V 是信号特征的另一种表示,其元素与键矩阵一一对应。得分函数 是计算注意力得分 S 的关键方式,决定了注意力的优化方向。注意力权重 A 可以通过分布函数获得,即A = h(S),其中最常用的分布函数是 SoftMax 函数。将注意力权重与值矩阵进行相乘并求和即可获得加权后的特征表示。

基于注意力机制的事后可解释方法是简单易懂的,只需将学习到的注意力权重映射到信号生成热图即可为决策者提供可解释性。除此之外,注意力机制增强关键特征并抑制冗余特征的特性使其可以在不增加网络参数的情况下显著提升模型的预测表现。同时需要指出的是,注意力权重是否可解释仍然存在争论,高权重是否就代表模型对相应特征关注度高需要结合具体对象和问题进行讨论,这仍然需要进一步研究。

(二)基于显著性分析的归因解释

显著性映射又称为显著性区域检测,是近年来计算机视觉与图像处理领域中的研究热点之一,其主要目的是让计算机如同人眼一样迅速判断图像中的显著性区域。显著性映射类方法是智能诊断领域中应用的最多的一种事后可解释方法。在智能诊断领域中,检测智能网络输入信号中的显著性区域意味着观察定位出作为判断故障是否存在的故障特征区,故也可称为故障区域定位。故障区域定位的事后可解释方法依赖于输入信号是否已经存在较为明显的故障特征区,如时域冲击、频域特征谱线与时频图特征区域等。因此,其输入往往是时域冲击信号、频谱图与短时傅里叶变换(STFT)图。这类方法中最为常用的为类激活映射(CAM)方法与逐层相关传播(LRP)方法

CAM 可以完美的结合到 CNN 中,因此其是智能诊断领域中常用的一种事后可解释方法。如图 3所示

在这里插入图片描述

CAM 可以通过卷积层激活映射的线性加权组合,给单个输入提供热力图可视化的解释。其可以表示为:在这里插入图片描述

激活图权重可以表示为:在这里插入图片描述

虽然 CAM 方法有以上的应用,但 CAM 对卷积体系结构是非常敏感的,需要一个全局池化层来跟随感兴趣的卷积层。Grad-CAM 及其变体则可以完美解决这个问题,其用类置信度关于激活图的梯度作为激活图权重:在这里插入图片描述

LRP 从模型输出开始反向传播到模型输入,用于探讨初始像素级输入特征对最终预测结果的影响,由初始像素级输入特征与预测结果的相关性来表征。一个神经网络可以表示为:
在这里插入图片描述

如图 4 右侧部分所示,对于 LRP 来说,第一层是输出,最后一层是输入。
在这里插入图片描述

因此,每一层各个维度(某个维度就是某个神经元)的相关性之和守恒,可以表示为:在这里插入图片描述

LRP 传播机制如图5所示:在这里插入图片描述

图中两个式子定义为:在这里插入图片描述

CAM 与 LRP 目标均为获取网络所关注的显著性区域并可视化出来,供人类专家理解与解释网络决策过程。这类方法思路简单,易于扩展到现有神经网络模型中,结果直观也容易理解,实现事后可解释,并在某些输入图像中可以直接实现故障定位。

(三)基于规则提取的归因解释

数据驱动的智能模型(如深度神经网络)在工业故障诊断中能够取得高精度和良好性能,然而,其复杂的内部结构难以解释。为了使工业系统使用者理解和信任“黑箱”模型,基于规则提取的模型可解释方法旨在以符号化语言揭示模型中的隐含知识,并解释智能网络模型做出决策的具体过程。具体而言,它以已训练的复杂模型为基础,生成可解释的符号描述或具有可解释结构的简单模型(如决策树),使其具有与原始模型相近的决策性能,同时易于使用者理解。

决策树规则:在机器学习和数据挖掘中,树结构被广泛运用于分类和回归问题。决策树采用“白盒”系统,其结构自然具备可解释性。因此,可利用决策树规则提取模型中的隐含知识。一个简单的决策树规则示例如图 6 所示

在这里插入图片描述

其表示基于方均根值(Root mean square,RMS)和频谱特征将转子状态划分为三类的决策过程。利用符号化规则解释智能模型的关键在于从已训练的网络中提取规则。目前,运用于工业智能故障诊断系统的规则提取方法尚未取得广泛研究。根据所提取规则是否涉及到具体神经元,可将规则提取方法划分为结构性规则提取和功能性规则提取。

结构性规则提取关注训练后神经网络的具体结构,将整个神经网络分解为若干神经层,并提取各层神经元和其后一层神经元映射间的符号化规则描述。最后,对各层间所提取的规则进行整合,用于表示整个神经网络的综合运算逻辑。结构性规则提取的整体流程如图 7 所示。

在这里插入图片描述

其中,深色的神经元和权重连接表示其处于激活状态。输入层到隐藏层以及隐藏层到输出层的规则集合可从激活的神经元和权重连接中提取,融合两个规则集合表示整体网络。

(四)基于代理模型的归因解释

为了将深度 AI 模型中的非线性高维特征空间简并到线性低维空间中进行理解,代理模型提出了一种逼近的观点。神经网络得益于其万能近似能力,理论上能以任意精度逼近两个空间上的函数或算子,代理模型则利用白箱模型(如线性模型、决策树浅层模型)再次逼近神经网络的函数关系,实现对原函数关系的近似的全局近似或局部近似,逻辑关系如图 8 所示。

在这里插入图片描述

基于这种“代理模型近似黑箱模型,黑箱模型近似真实函数”的逼近观点,代理模型可以充分利用现有的可解释机器学习模型,实现对黑箱模型中特征的归因分析。代理模型的优势是能充分利用现有浅层模型的可解释性,但在处理高维输入或高维特征量方面存在显著短板。对于 LIME 方法,其局部解释能力需要构建单个样本的邻域分布,但构建这种“伪样本”对于高维数据来说是困难的。

实验验证

本文通过一个基于注意力可视化的案例展示深度模型的决策逻辑。案例使用的试验数据来源于凯斯西储大学轴承数据中心。试验台采集的振动信号数据包括四种状态,分别是健康状态、内圈故障、滚动体故障、外圈故障。本案例选择驱动端振动传感器采集的数据,采样频率为 12 000 Hz,轴承信号为 SKF6205。为简化试验,案例仅使用电动机负荷为 0 的振动信号,转速为 1 797 r/min。

为便于对注意力的分布进行解释,案例应用包络谱作为模型的输入。对于四种状态的轴承数据,使用滑窗选取 55段信号,每段信号包含 12 000 个点,也就是 1 秒的数据。随后计算段信号的包络谱,并把 0 到 2 000 Hz的频率幅值作为样本输入到模型中进行训练,即输入维度为 1×2 000。80%的样本被用作训练集,其余样本为测试集。本案例使用的模型是 Transformer网络,前述的研究表明其内部的自注意力机制对振动信号具备良好的可解释。

如下图10为文献中对凯斯西储大学轴承数据集外圈故障时域信号使用 ResNet 模型与 Grad-CAM方法进行显著性分析的归因解释所得的热力图。由于外圈故障信号存在明显的时域冲击信号,也即时间序列信号中存在明显的与故障相关的显著性特征,因此,此种类型的信号尤其适用于显著性方法的归因解释

在这里插入图片描述

从图中可以看出,神经网络对外圈故障信号样本的激活程度权重颜色更热的部分集中在时域信号的冲击附近,说明网络的关注点在信号的冲击成分,网络也通过此冲击成分分类出外圈故障,这与人类专家关于轴承外圈故障特征的认知相符合,进一步阐述了显著性分析方法对模型分析可以得到正确的归因解释。

本文进一步分析了如何应用功能性规则提取方法,以期从已训练的神经网络中发掘可解释的故障诊断知识。数据和模型仍然选用凯斯西储大学轴承数据和上述 Transformer 网络。经模型训练后,在测试阶段可获取该模型对于 49 个正常样本、25 个内圈故障样本、25 个滚动体故障样本和 25 个外圈故障样本的诊断预测结果。经过频谱分析和归一化处理后,可获得 5 类特征属性。不考虑其余属性对故障诊

断的影响。因此,所提取的规则集如表 2 所示。

在这里插入图片描述

从表 2 可以看出,规则在一定程度上反映了外圈故障、滚动体故障和内圈故障的特征。

将 SHAP 方法应用于凯斯西储大学轴承故障诊断中,并对高维数据问题进行了两处改进。① 将时域信号转换到频域或时频域,在特征相对稀疏的频域或时频域计算 Shapely 值,并且完全可逆的变换保证了信息的完整性;② 相比于计算谱图的每条谱线的 Shapely 值,该方法将谱图进行了划分,例如将频谱图划分为等距频带或自适应频带,将该频带作为计算 Shapely 值的特征。

在这里插入图片描述

图 11 上图为神经网络输入信号,左下图是完整频域及对应 SHAP 值图,右下图是感兴趣频带及SHAP 值图。

总结与思考

本期推文以工业智能诊断中的可解释性问题为中心,从全局-局部解释、主动-被动解释出发,分析了归因解释技术在工业智能诊断中的应用前景,并对现有工作进行总结。首先讨论了工业智能诊断中XAI 技术面临的问题,概述了归因解释技术的主要观点;然后,从注意力机制、显著性分析、规则提取、代理模型四个方面分析了当前工作的主要贡献,概述了实现归因解释技术的不同方法视角,总结每个分类的优势与不足。当前工业智能诊断中的归因解释技术处于基础阶段,依然存在很多值得研究的方向,本文探讨分析了可解释性的量化评估标准、可解释性自动化反馈模型设计、模型复杂度与可解释性的平衡、工业诊断中的高维问题四个方向,是值得重视的研究领域。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值