Predictive and Prescriptive Analytics in Operations Management

最新推荐文章于 2024-10-18 11:21:51 发布

zzzzz忠杰

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量508

点赞数

分类专栏： RL&OR 文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_43889128/article/details/128695533

版权

RL&OR 专栏收录该内容

56 篇文章 14 订阅

订阅专栏

本文提出了一种端到端的机器学习框架，用于工业设备的预测维护。框架包括描述性、预测性和规定性分析，利用自然语言处理创建动态故障模式和影响分析（FMEA），并预测故障模式和原因。通过传感器数据和概率模型，该框架能提前预测故障并规划维护干预。在实际应用中，该框架在OCP维护解决方案公司的设备上成功实施，显著降低了维护成本和停机时间，体现了在工业4.0和工业物联网环境中的价值。

摘要由CSDN通过智能技术生成

6。1
随着工业机器硬件和软件的现代进步，以及传感器数据的可用性，机器学习（ML）对于降低维护成本、确保工业系统的可靠性和反应性变得越来越重要。在故障检测环境中使用ML不是最近才出现的。
例如，在电力分配的背景下，[91]使用简单的ML模型（如线性回归和支持向量机）预测故障，而最近的研究（如[97]）使用深度学习来预测生产线的状态，牺牲了智能性和简单性以获得更高的准确性。[43]表明，与正确的干预措施相结合，预测性维护可单独节省18%至25%的维护支出，并通过减少停机时间节省额外成本。
在本章中，我们提出了一个端到端框架，该框架利用新颖的ML模型从描述性、预测性和规定性视角。我们首先提出了一个自然语言处理（NLP）模型，以根据可用的文本数据创建动态故障模式和影响分析（FMEA）。然后，我们使用概率模型来扩展FMEA，以评估每个故障模式及其原因的可能性，这取决于系统的状态，并且仅基于传感器数据。这两个步骤构成了分析的描述性部分，使我们能够根据过去的观察充分描述工业机器的当前状态。然后，我们使用[21]中首次引入的一种新颖的稀疏和缓慢变化的回归模型，将该分析投射到未来，并提前几天和几周以可解释的方式预测系统的状态。我们的经验表明，我们的方法在准确性方面大大提高了基线，同时仍然可以向最终用户和维护代理解释。
此外，我们还讨论了如何使用这些预测来计划维护干预，贪婪地或通过应用[31]提出的优化框架。
最后，我们说明了OCP维护解决方案公司（世界上最大的磷酸盐开采公司OCP的子公司）如何成功实施和部署了所提出的框架。该应用程序大大提高了大量内部和外部客户在各种工业机器上的性能，并产生了显著的业务影响。
6。2
近年来，预测维护领域出现了巨大的增长，这是一个严重依赖数据和模型的行业（称为工业4.0）以及工业物联网（IoT）的热门话题之一。
由于我们的工作与这两个主题相关，因此我们回顾了最近与这些领域相关的工作。
FMEA通常用作识别故障模式的方法，从而提高资产或部件的可靠性。在最新技术中，已经发表了多项研究和研究工作，以解决FMEA的应用问题。例如，[62]应用FMEA方法评估以可靠性为中心的维护对水轮机发电系统的影响。[11] 呈现FMEA模型的概率修改，并建立其相对于传统FMEA的优势。[79]建议将FMEA方法应用于地热发电厂的风险分析。最近，[82]开发了一种数据驱动的方法来构建FMEA。
[79]依靠工业机器使用阶段的历史数据和操作数据，并使用深度学习方法构建FMEA。我们的工作与[79]的不同之处在于，它需要更少的数据，并且FMEA是以可解释的方式构建的。此外，我们还扩展了动态FMEA，以考虑发生概率。
振动分析是一种用于旋转机械和制造系统的技术。一些研究已将振动分析用于产品数据管理（PdM）。[36]建议了PdM的传感器定位规则。[128]和[152]介绍了轴承失效研究的实验案例。[52]提出了描述机器整体运行状态的指标。我们将振动分析作为特征工程过程的一部分。
为PdM开发ML模型是随着工业4.0的兴起而来的维护的关键扩展之一。PdM是技术密集型的，涉及不同的维护、仪表和信息技术（IT）技术。
PdM政策的实际实施面临两个主要问题：首先，除了通用的机器学习回归模型，如LASSO回归[153]和XGBoost（[49]），PdM[151]没有任何具体的统计模型，这些模型在行业中越来越流行，但尚未完全成功；第二，对复杂数据采集和监控系统的要求（[163]）。[146]提出了一种基于不同层位的多分类器方法，具有两个类别：故障和非故障。[102]使用具有分析能力的物联网振动传感器来预测产品的剩余使用寿命。上述解决方案是行业特定的，需要巨大的安装投资；因此，它们对大型组织的适用性有限。此外，使用这些方法开发的模型在同一行业内的不同公司上实施时需要修改。在本章中，我们为PdM提出了一个通用的、低成本的机器学习框架
6。3
在本节中，我们将描述我们使用的原始（原始）数据的结构，以及所提出的框架应用于它们的管道
6。3。1
我们收集具有以下结构的表格数据X：•设备类型：设备类别，例如，“呼吸机”。设ℳ为数据中的不连续设备类型，| \8499；|=𝑀. 我们假设一种特定类型的所有设备在组件、传感器等方面都是相同的。我们在数据中将此列称为XM。
•设备ID：设备唯一标识符。允许𝒩𝑚 是类型的成套设备𝑚 ∈ ℳ与|𝒩𝑚| = 𝑁𝑚. 然后，我们假设，在不失一般性的情况下，设备ID采用集合中的值𝒩𝑚 = {1, . . . , 𝑁𝑚} := [𝑁𝑚]. 我们将数据中的此列称为XN。
•部件：设备的部件。允许𝒞𝑚 是类型设备的一组组件𝑚 ∈ ℳ与|𝒞𝑚| = 𝐶𝑚. 我们在数据中将此列称为XC。
•传感器：进行测量的部件的传感器。允许𝒮𝑚,𝑐 是组件的传感器𝑐 ∈ 𝒞𝑚 类型的设备𝑚 ∈ ℳ与|𝒮𝑚,𝑐| = 𝑆𝑚,𝑐. 我们将数据中的此列称为XS。
•传感器数据：从传感器获得的数据。这包括直接测量，如温度、加速度和振动，以及光谱数据，如振动谱。任何其他传感器数据可用于此分析的目的。我们将传感器数据称为部件的特征。允许𝒟𝑚,𝑐,𝑠 是传感器的一组功能𝑠 ∈ 𝒮𝑚,𝑐 组件的𝑐 ∈ 𝒞𝑚 类型的设备𝑚 ∈ ℳ. 我们将数据中的此列称为除息的。我们假设XD∈R|𝒟𝑚,𝑐,𝑠| 让X𝑟,D）[𝑑] 提取特征𝑑 ∈ 𝒟𝑚,𝑐,𝑠 根据传感器的传感器数据𝑠, 组成部分𝑐, 设备类型𝑚.
•症状：维修干预后，主题专家对故障影响的描述。我们在数据中将此列称为XF。
•时间戳：进行时间测量（传感器数据，如果存在症状）。我们假设每个设备的所有传感器和所有部件的测量值𝑛 ∈ 𝒩𝑚 类型的𝑚 ∈ ℳ以固定的速率（例如，每小时一次测量）进行测量，并且有相同的数量。然后，在不失一般性的情况下，𝑇𝑚 ∈ Z+为类型设备的测量次数𝑚 ∈ ℳ. 我们在数据中将此列称为XT。
由表示𝑅 X中的行数，即|X|=𝑅, 然后我们引用一个特定的行𝑟 ∈ [𝑅] 作为X𝑟 以及特定条目，例如，行𝑟 在“组件”列中，作为X𝑟,C、对应于行的示例数据点𝑟 ∈ [𝑅] 在数据表X中。

数据字段符号示例设备类型X𝑟,M通风设备ID X𝑟,N 3组件X𝑟,C涡轮传感器X𝑟,S 2传感器数据（温度、加速度、振动）X𝑟,D（143.2，2.4，0.98）症状X𝑟,F涡轮旋转期间的摩擦时间X𝑟,2020年12月8日12时23分

为了简化演示，在本章中，我们使用简化版本的数据，例如，我们关注特定的设备类型，只关注某些组件或传感器。在描述所提出框架的相应部分时，我们明确说明了任何简化。
6.3.2
正如引言中所讨论的，故障模式和影响分析（FMEA）是一种识别设备潜在故障模式并评估与每种模式相关的原因的方法。FMEA有一个树形结构，首先将设备分解为易受影响的组件，然后确定每个组件的观察到的故障模式。最后，FMEA试图确定每种故障模式的原因。
FMEA树是基于一些观察到的变量建立的，例如与部件相关的温度、振动等。FMEA的一般模式如图6-1所示。在某些应用中，设备可以进一步细分为资产和子资产。
6.3.3
所提出的框架由三部分组成：一个描述部分，由一个以数据驱动方式构建FMEA树的模块（模块1a）和一个预测故障模式及其原因的模块（单元1b）组成；预测部分，预测未来故障（模块2）；一个规定性的部分，在给定预测的情况下，执行维护计划（模块3）。我们在图6-2中说明了管道。
模块1a在组件级别上运行。对于任何给定设备𝑚 ∈ ℳ和组件𝑐 ∈ 𝒞𝑚, 模块1a将数据中出现的所有相应症状（即。，
()
模块1a的输出为ℱ𝑚,𝑐 组件的可能故障𝑐 设备的𝑚 和一个函数𝑓𝑚,𝑐 : 𝒮𝑚,𝑐 ↦→ ℱ𝑚,𝑐 其将症状（即自由文本）映射到故障模式以及相应的FMEA树。
模块1b也在组件级别上操作。对于任何给定设备𝑚 ∈ ℳ和组件𝑐 ∈ 𝒞𝑚, 模块1b将相应的传感器、传感器数据和来自相应故障组的故障模式作为输入ℱ𝑚,𝑐, 即。，
()
输出是一个函数，在给定传感器数据的情况下，该函数估计部件特定故障模式的概率𝑐 设备的𝑚 并且对于每个传感器𝑠 ∈ 𝒮𝑚,𝑐, 该故障由传感器引起的概率𝑠.
模块2在传感器水平上运行。对于任何给定设备𝑚 ∈ ℳ，组件𝑐 ∈ 𝒞𝑚, 和传感器𝑠 ∈ 𝒮𝑚,𝑐, 模块2将相应的传感器数据作为输入从所有设备和所有时间戳（即。，
()

输出是一组模型，每个模型都是为 𝑚 类型的特定设备量身定制的，它预测组件 𝑐 的传感器 𝑠 的传感器数据的未来值。
最后，模块 3 在一个统一的层面上运行，即它将上述所有模块的输出与维护数据（可用资源、约束等）相结合，以执行预防性维护调度
通过 XF 中观察到的症状进行描述：
（）
模块1a使用自然语言处理（NLP）和聚类，使用函数将这些症状映射到正确定义的故障模式𝑓𝑚,𝑐 : 𝒮𝑚,𝑐 ↦→ ℱ𝑚,𝑐. 我们在算法7中描述了模块1a中使用的算法
，，，，，，，，，，，，，，，，，
输入：自由文本症状栏XF，停止词列表ℒ, 最小观测次数𝑁min∈Z+，簇数𝑘 ∈ Z+上。
输出：映射𝑓𝑚,𝑐 : 𝒮𝑚,𝑐 ↦→ ℱ𝑚,𝑐
1.停止词：我们从XF中删除所有停止词。i、例如，X𝑟,F=X𝑟,F∖ℒ, ∀𝑟 ∈ [𝑅].
（停止词的完整列表见附录E.1。）2。词干：我们对剩下的单词进行词干，也就是说，我们将单词转换为它们的词根，例如，如果单词以“ed”结尾，我们删除“ed”，如果单词在“ing”结尾，则删除“ing”，如果该单词以“ly”结尾，那么删除“ly”。我们还删除了前缀和复数形式。例如，单词“rotation”、“rotations”、“rotate”和“rotate”都变成了同一个单词：“rotate”。即X𝑟,F=阀杆（X𝑟,F），∀𝑟 ∈ [𝑅].
3.N克：我们计算2克。2-grams是单词的组合，它们经常出现在一起，应该被视为一个词。对于
例如，“纽约”应被视为一个术语，或者在我们的案例中，“故障模式”指的是一个单独的实例。这是通过计算一个接一个出现的术语的出现次数来实现的。
4.文档术语矩阵（DTM）：然后我们创建一个矩阵，其中行是观察值𝑟 ∈ [𝑅] 列是预处理步骤产生的术语𝑤 ∈ {[𝑟, 十、𝑟,F] |𝑟 ∈ [𝑅]} s、 t.本学期出现的次数𝑤 至少是𝑁最小Let𝑊 此类术语的数量。此矩阵的每个条目对应于行𝑟 ∈ [𝑅] 和列𝑤 ∈ [𝑊] 如果观察到，则等于1𝑖 包含该单词𝑤, 否则为0。
5.术语频率（TF）-反向文档频率（IDF）权重：我们根据单词的频率对矩阵的条目进行权重𝑤 在观察中𝑟 注意𝑛𝑟,𝑤, 以及单词的频率𝑤 在所有文档中。我们定义函数TF:TF(𝑟, 𝑤) = 𝑛𝑟,𝑤 ∑︀ 𝑤′∈[𝑊] 𝑛𝑟,𝑤′ 和IDF:IDF(𝑤) = 日志|{𝑟∈[𝑅]: 𝑅 𝑛𝑟,𝑤>0| . 然后将每个条目相乘𝑟, 𝑤 在TFIDF的文档术语矩阵中(𝑟, 𝑤) = 时间间隔（TF）(𝑟, 𝑤) ×IDF(𝑤). 这一步的目标是对同一文本中多次出现的单词进行加权，并对所有文本中出现频率过高的单词进行较少加权，因为这些单词对兴趣观察的具体程度较低
6.聚类：然后使用𝑘-意思是用余弦相似距离聚类。相似的观察，即具有相似文本的观察，被分组在一起。每组“症状”𝒮𝑚,𝑐 将代表不同的故障模式ℱ𝑚,𝑐, 导致映射𝑓𝑚,𝑐 : 𝒮𝑚,𝑐 ↦→ ℱ𝑚,𝑐.
7.主题提取：最后，我们为故障模式命名，以便于解释。我们计算每个单词𝑤 ∈ [𝑊] 平均值𝜇𝑤 和标准差𝜎𝑤 在所有文档中。然后，我们计算了平均值𝜇𝑤,𝑗 每个集群中每个单词的𝑗 ∈ [𝑘]. 我们自动命名检测到的故障模式𝑗, i、例如，集群，具有最独特的术语：arg max𝑤 𝜇𝑤,𝑗−𝜇𝑤 𝜎𝑤 .
8.返回𝑓𝑚,𝑐 以及故障模式的名称。
，，，，，，，，，，，，，，，，，
我们假设，在不失一般性的情况下，XF排用于相同的装备类型𝑚 和相同的组件𝑐; 对于一般情况，我们将数据子集（如第6.3.3节所示），并将算法7分别应用于所有设备类型组件对。关于算法7的输入，我们注意到𝑁最小值和𝑘 通过超参数调谐获得。应用算法7后，我们只需枚举（扩展）数据集中出现的设备部件故障模式组合（由此添加了故障模式），即{(𝑚, 𝑐, 𝑓𝑚,𝑐(𝑠)), ∀(𝑚, 𝑐, 𝑠) ∈ XM×XC×XF}。因此，我们得到了FMEA树的第二层。
对于OCP“呼吸机”设备的示例，我们提取了三种可能的模式：“摩擦”、“未对准”和“无异常”。这些故障模式对于“滑轮”和“涡轮机”部件都是相同的。我们获得了图6-4。
6。5 描述部分：预测故障和故障原因
在本节中，我们将介绍模块1b，该模块用于构建FMEA树的第三层（故障模式传感器），并将其扩展到考虑发生概率。
6。5。1
正如实践中经常发生的那样，无法获得直接确定故障确切原因的数据。我们为模块1b开发的框架从传感器数据XD中检测故障模式，并将每个故障模式分配给XS中的特定传感器。我们对数据集进行了分割，以便为每个组件训练不同的模型，因为故障模式的交互取决于设备的类型和组件的性质，并且传感器的结构也不相同。因此，我们再次假设，在不失一般性的情况下，有一台机器𝑚 和一个组件𝑐 在数据集中。我们表示为𝑖 ∈ [𝐼] 在同一时间对同一设备的同一部件（聚合传感器）进行的所有观察的集合，我们通过适当选择行的子集来获得𝑟 ∈ [𝑅] 在数据中。
在模块1a中，我们有一个标签𝑦𝑖 ∈ ℱ𝑚,𝑐 在我们的数据集中，每个观测的故障模式𝑖. 我们用X表示𝑖,Δ给定观测的所有传感器的传感器数据（温度、压力、速度、光谱）矩阵𝑖 在给定时间戳；注意X𝑖,Δ可通过汇总数据X获得𝑖,D来自所有传感器𝑠 ∈ 𝒮𝑚,𝑐 对应于特定组件𝑐 相同设备的𝑚 同时𝑡. 然后，X𝑖,𝑠,Δ给出传感器的协变向量𝑠 ∈ ｛X｝𝑖,S𝑖 ∈ [𝐼]} 用于相应的观察𝑖 在同一时间戳。我们还注意到𝑋 对应的随机变量，𝑆 := 𝑆𝑚,𝑐 ∈ Z+该组件的传感器总数，以及𝑃 ∈ Z+此组件的故障模式总数。
对于模块1b，我们开发了分配和预测方法，这是一种具有概率原因分配的加权逻辑回归模型。我们引入了以下参数：
• 𝛼𝑠：故障原因是传感器𝑠的概率，∀𝑠∈[𝑆]。
• 𝛽𝑠𝑝：对应于传感器（原因）𝑠、∀𝑠∈[𝑆]和
失败𝑝，∀𝑝∈[𝑃]。
• 𝛾𝑖: 传感器所在的位置或原因，导致观察失败𝑖 ∈ [𝐼].
使用上面定义的参数，我们编写了方程（6.1）中所示的优化问题，并附加了失败的符号𝑝 = 0表示无故障，每个𝑝 > 0对应于特定的故障模式。例如，在我们的呼吸机示例中，𝑝 = 1对应于𝑝 = “摩擦”和𝑝 = 2至𝑝 = “错位”。
（6。1）
问题（6.1）中的优化是给定参数化，ob服务于我们所拥有数据的可能性的最大化。
6。5。2
问题（6.1）直接给出了故障原因（如果存在故障）是原因的概率𝑠, ∀𝑠 ∈ [𝑆], 通过系数𝛼𝑠. 此外，从问题（6.1）的最优解中，我们可以提取额外的有用信息，如下所述。对于给定的观察𝑖, 失效模式为𝑝, 考虑到故障原因是传感器𝑠, 可以估计为：
（）
失效模式为𝑝 可以估计为：
（）
模块1b通过赋值和预测方法，可以充分描述给定传感器数据XΔ的系统状态。因此，我们完成了数据驱动的FMEA树，并将其扩展到每个级别的发生概率。对于OCP“呼吸机”，我们获得了图6-5，这是模块1的最终FMEA输出。
6。5。3
为了进行比较，我们使用OCP数据将模块1b的分配和预测方法与基线进行比较，该基线包括（i）对整个传感器数据进行逻辑回归以预测故障模式，然后（ii）将原因随机分配给候选传感器之一。我们得到了表6.2所示的结果。第一列“故障模式”显示了预测两种方法的失效模式；第二列“故障原因”显示了预测此故障的真实原因（传感器）时的样本外精度（如果有）；最后一列“故障起因，了解故障模式”与第二列相同，但故障模式实际已知而未预测。
表6.2显示，分配和预测方法在所有三个预测任务中都显著优于基线，从故障模式检测的20%以下提高到82%，并且几乎将故障正确原因的识别率提高了一倍。
6。6
就预测部分而言，我们的目标是使用可用的传感器数据并训练预测模型。由于不同设备类型的不同组件的不同传感器处的传感器数据结构可能非常不同，因此我们需要为每个传感器建立不同的模型。然而，我们可以期望相同类型设备的相同部件的相同传感器产生相同结构的数据；此外，我们可以期望它们的行为相对类似。
因此，对于每种设备类型𝑚 ∈ ℳ，组件𝑐 ∈ 𝒞𝑚, 和传感器𝑠 ∈ 𝒮𝑚,𝑐 我们在所有这样的设备上安装一个模型𝑛 ∈ 𝒩𝑚, 同时，这允许对应于不同设备的“子模型”之间的微小变化。例如，在回归的上下文中，我们将估计不同的回归函数𝛽 𝑛 每件设备𝑛 ∈ 𝒩𝑚 一种特定类型的𝑚 ∈ ℳ（而不是估计单个回归𝛽 对于整个设备类型），同时要求所有此类回归器都是“相似的”。建议方法的替代方案一方面是为整个设备类型拟合单个模型，另一方面是在设备级别拟合完全独立的模型。通过在设备类型级别培训模型，我们从以下几个方面受益：
-我们使用来自多个来源的数据训练单个模型，从而增加数据集的大小。这利用了问题的结构，特别是同一类型的设备预期会有类似的行为。
-我们可以直接对同一类型的新设备进行预测，而无需收集数据并训练新模型。特别是，我们可以利用与训练数据中最相似的设备（相同类别）对应的子模型
此外，我们希望我们的模型是稀疏且可解释的：我们关心向主题专家解释我们的预测，因此需要使用具有少量变量和可解释交互作用的模型。为此，我们利用[21]首次引入的稀疏且缓慢变化的回归框架，该框架满足上述要求。接下来，我们将描述适用于我们考虑的环境的拟议框架
6。6。1
我们专注于设备类型𝑚∈ℳ，组件𝑐∈𝒞𝑚和传感器𝑠∈𝒮𝑚，𝑐。
我们的目标是适合𝑁𝑚 = |𝒩𝑚| 回归 (𝛽𝑛)𝑛∈𝒩𝑚 在具有顶点𝒩𝑚 的图𝐺 上；图中的每个顶点对应于 𝑁𝑚 件设备之一。
对于(𝑛1, 𝑛2) ∈ 𝒩𝑚 × 𝒩𝑚，边(𝑛1, 𝑛2)在边集合ℰ中当且仅当设备𝑛1和𝑛2被认为是相似的；例如，根据使用年限，可以认为两件设备相似。用于构建相似度图的相似度数据必须由主题专家输入到系统中。
回想一下，预测部分的输入是以下形式的数据
（）
也就是说，我们这部分的数据由特定设备类型的三元组组成（时间戳、设备ID、传感器数据）𝑚 ∈ ℳ，组件𝑐 ∈ 𝒞𝑚, 和传感器𝑠 ∈ 𝒮𝑚,𝑐 我们研究的。我们愿意对一个特性进行预测𝑑 ∈ 𝒟𝑚,𝑐,𝑠 未来，考虑到𝒟𝑚,𝑐,𝑠 现在。（我们的方法直接概括为预测𝒟𝑚,𝑐,𝑠 通过多元回归模型。）因此，对于𝑡 ∈ [𝑇𝑚 −1] 以及𝑛 ∈ 𝒩𝑚, 我们引入以下符号：
（）
回想一下X𝑟,D）[𝑑] 提取特征𝑑 ∈ 𝒟𝑚,𝑐,𝑠 来自行中的传感器数据𝑟 完整数据集的。换句话说，𝑋𝑡 𝑛 对应于特征向量观察𝑡 的𝑛-第件设备和𝑦𝑡 𝑛 对应观察的响应（目标）值𝑡, i、例如，我们愿意在下一时间步预测的特征。
注意，为了简单起见，我们假设所有设备的观测次数相同；放弃这一假设，并对观察数量不相等的更一般的情况进行建模是很简单的。
然后，具有稀疏性约束的缓慢变化回归问题可以模拟如下：
（）
哪里Supp(𝛽) 表示与向量支持相对应的集合𝛽 和𝑆1.△𝑆2表示集合的对称差𝑆1.𝑆2.目标函数（6.2）惩罚𝑁𝑚 回归和𝑙2数量级相似的回归之间的系数距离𝜆𝛿. 我们还介绍了𝑙2正则化量级项𝜆𝛽 出于鲁棒性目的。回归系数有三种类型的约束𝛽 𝑛 :
•局部稀疏性：每个回归最多可以有𝐾L相关特征（约束（6.3））。
•全球稀疏性：最多𝐾G所有相关功能𝑀 回归（约束（6.4））。
•稀疏变化的支持：最多可以有𝐾C相似回归中的相关特征𝑛1.𝑛2（约束条件（6.5））。

参数𝐾L, 𝐾G, 𝐾C必须一致，即需要满足𝐾L ≤ 𝐾G ≤ |𝒟𝑚,𝑐,𝑠| 和𝐾C≤2𝐾L𝑁𝑚。
正如 [21] 中所解释的那样，问题 (6.2)-(6.5) 可以重新表述为一个二元凸优化问题，并且利用重新表述的问题的凸性，可以使用切割平面将其求解为最优和大规模型算法。
特别是，结合用于寻找高质量热启动解决方案的启发式逐步方法，[21] 开发了这种算法的高度优化实现，可以在几分钟内解决 𝑇𝑚 ≈ 10, 000 个观察的问题 ,
𝑁𝑚 ≈ 50 台机器，并且 |𝒟𝑚,𝑐,𝑠| ≈ 600 个特征。
6。6。2
我们将我们建议的设备类型“呼吸机”（即。，𝑚 = 呼吸机）。
我们使用从同一组件获得的真实数据𝑐 ∈ 𝒞𝑚 和相同的传感器𝑠 ∈ 𝒮𝑚,𝑐 从…起𝑁𝑚 = OCP对6台呼吸机进行维护𝒟𝑚,𝑐,𝑠 包括温度和15个光谱特征，总共|𝒟𝑚,𝑐,𝑠| = 16项功能。我们的目标是预测当时的温度𝑡 + 𝐻, 哪里𝐻 表示给定时间所有特征的预测范围（即，我们愿意预测的时间）𝑡. 我们探索各种价值𝐻 在我们的实验中（从四小时到一周不等）。我们使用相同的号码𝑇𝑚 ≈ 每台不同的呼吸机（一台设备）的1000次观察；我们使用前70%的观察值作为训练集，保留剩余的30%作为测试集。
作为基线，我们拟合了应用于所有呼吸机的单一稀疏回归模型（具有脊正则化），称为基线。我们使用ssv回归来参考所提出的稀疏和缓慢变化的回归模型，该模型使用[21]的精确切割平面算法求解。我们使用交叉验证调整两种方法的超参数。我们报告了不同稀疏级别的结果。注意，当基线的稀疏度设置为1并且温度是唯一选择的特征时，得到的模型与简单的AR（1）模型一致。
结果见表6.3。关键之处在于，ssv回归能够在几分钟内计算出在基线基础上改进的解决方案。我们注意到具有2个以上特征的稀疏度较低的模型的性能迅速恶化；这可以归因于数据中特征之间的高度相关性（即，所有特征对之间的平均相关性≈0.5）𝑡 作为预测当时温度的相关特征𝑡 + 𝐻; 当模型中允许包含更多特征时，ssv回归使用其所有自由度，在剩余特征和缓慢变化幅度的估计系数之间交替
6。7
在本节中，我们简要介绍了一种使用模块1和模块2的预测来安排维护干预并在故障发生前采取行动的方法，即以最佳方式。我们注意到，目前，OCP维护解决方案使用贪婪方法，根据组合模块1和模块2所作预测的标称值执行维护调度。在下文中，我们建议对当前系统模块3进行扩展，该模块将允许联合进行预测和处方。
所提出的框架被称为HPA，用于连续和约束优化问题的整体规定性分析，该框架在预测损失（即，我们训练的预测模型所产生的误差）和规定性损失（即我们在维护干预中关心的最终目标（例如，停机时间或总干预成本）的加权平均值上进行优化。HPA背后的关键直觉是，它将观察结果或特定时间步的机器重新组合成具有相似行为的组，为每一个组训练稀疏且缓慢变化的线性回归并使用得到的预测在全球范围内优化维护干预。以上所有这些都是同时联合优化的，而不是顺序优化的。我们参考[31]了解公式的数学细节。需要注意的重要一点是，HPA特别适合此应用，因为（i）HPA可以与稀疏和缓慢变化的回归预测方法相结合轻松解决，（ii）用于调度干预的混合整数线性优化问题是可扩展的，（iii）HPA消除了具有多个顺序模块的框架中的一层错误，并且因此受到来自预测误差的更复杂的影响。
上述方法允许将预测部分（稀疏和缓慢变化的回归）和规定部分（维护操作调度）结合在一起，并通过对最终干预中的预测不确定性更加鲁棒而大幅减少误差。最终，这种从描述到预测再到处方的端到端框架允许对工业系统进行详尽的分析，并采取最佳的、数据驱动的维护措施，从而实现显著和可持续的性能改进。我们将在下一节中概述这些改进
6。8
在本节中，我们将讨论OCP维护解决方案拟议预防性维护框架的实施情况，并强调其影响
6。8。1
OCP维护解决方案将所提出的框架作为其名为I-sense的工业试验物联网（IIoT）平台的一部分加以实施。I-sense平台包括设备管理和集成分析工具，这些工具允许用户连接和管理设备，收集和分析数据以改进决策实践，所有这些都在安全的互联环境中。I-sense平台的以下模块与道具直接相关
•测量模块：测量模块提供所选资产（即设备）的所有相关信息，例如设备类型、设备ID、组件等（见图6-6）。此外，该模块还包括“光谱分析工具箱”，允许用户选择组件并监控其传感器、测量趋势和振动信号（见图6-7）；该系统为有效的振动分析过程提供了所有必要的功能和配置。上述工具可帮助振动分析师（即主题专家）诊断振动信号，并为任何故障及其原因提供建议（使用图6-6所示的界面）。我们收集提供的数据来标记我们在平台中的信号，并重新训练/改进我们的模型。
•警报管理模块：警报管理模块跟踪事件，自动创建要分析的每个警报（或在不太紧急的情况下，警报）的票证，并监控其他关键性能指标，如票证积压趋势、警报的使用年限和干预时间。图6-8显示报警积压，这是报警管理模块的一部分。
警报积压包含每个警报或警报的信息，即故障设备类型、ID和组件。
•分析模块：分析模块提供预测的可视化。状态预测仪表板（图6-9）为设备的给定组件提供状态预测。
对于状态预测仪表板中的给定时间戳，故障和原因预测仪表板（图6-10）描述了FMEA树、分配和预测模型以及生成的FMEA树所估计的每个故障类别的概率。对于每对（故障、原因），我们分配一个操作
此外，测量预测仪表板（图6-11）显示了每个特征（温度、振动等）的实际值和预测值，并评估了稀疏和缓慢变化的回归模型的历史性能
6。8。2
为了说明拟议框架和I-sense平台对OCP维护解决方案客户的可衡量影响，我们提供了三个示例：
•第一个使用案例是关于Maroc Chimie工厂南线一台卫生风扇的振动阈值超标引发的警报。风扇轴承侧的振动水平达到13.4 mm/s。处方是控制错位和结垢。除了风扇清洁、重新调整和控制风扇侧的轴承外，还按照这些规定进行了紧急干预。振动显著降低至0.9 mm/s。防止的损坏包括轴承和联轴器损坏、电机过早退化以及生产线可能突然中断。在业务层面上，及时实施干预措施的事实防止了预计的14小时停机时间，这相当于生产了826吨化肥，客户获得了250万MAD（约29万美元）。
•第二个使用案例涉及位于Maroc Chimie工厂北线上的反应风机。风扇在轴承风扇侧产生24.2 mm/s的振动，达到全球水平，这是由旋转不平衡以及同一轴承上4.2g的高加速度引起的，这是由于缺乏润滑和松弛引起的摩擦。由于及时的预测，我们能够清理风扇的污垢，调整风扇侧轴承滚子的松弛度，并润滑轴承。因此，振动降低到4.1mm/s，我们能够避免轴承过早退化和生产线可能中断。在这种情况下，干预停机8小时，相当于生产472吨化肥客户获得140万MAD（约16万美元）。
•最后一个例子涉及对Bengueir现场磨床的历史数据进行的分析。我们在机器出现故障的关键时间段运行模型。由于不断松动，该资产被拆分了18天。该模型能够在早期阶段预测故障模式，即事故发生前12天，概率为0.27，事故发生前1天，概率0.71。我们强调，这种特殊类型的设备具有特殊的机械结构，由定制零件组成，在发生故障时极难更换。因此，了解哪一部分处于危险状态至关重要，并将停机时间降至最低。
6.9结论
在本章中，我们介绍了预防性维护的一般框架，从描述到预测再到处方。所提出的框架以数据驱动的方式充分描述设备在给定时间的状态，预测未来故障及其原因，并建议最佳维护干预。我们发现，对于相同的任务，所提出的框架显著优于基线。
我们的行业合作伙伴OCP维护解决方案已全面实施和部署了拟议的框架，从而形成了一个完整的预防性维护平台，我们在本章中对此进行了描述，并显著提高了性能。具体而言，OCP维护解决方案客户的维护成本在一年内下降了2.5 MAD以上。