第8讲 | 流程挖掘与机器学习

最新推荐文章于 2024-07-19 16:33:18 发布

北京凡得科技有限公司

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量158

点赞数

分类专栏：流程挖掘科普系列文章标签：机器学习聚类算法

本文链接：https://blog.csdn.net/weixin_43786571/article/details/128190731

版权

流程挖掘科普系列专栏收录该内容

13 篇文章 4 订阅

订阅专栏

在流程挖掘中机器学习能做什么？

机器学习（Machine Learning）和流程挖掘的整合可以帮助企业自动识别流程中的弱点及其根本原因，并为如何更快提高效率提出规范性建议。

1、流程发现与机器学习

第1讲 | 流程发现_北京凡得科技有限公司的博客-CSDN博客

有些业务流程的事件日志存在杂乱无章的情况，可能无法有效地发现有意义的流程模型。机器学习中的分类技术可以用来改进发现的流程模型。应用聚类和分类方法进一步分配事件日志，之后再应用流程挖掘技术发现有价值的流程模型。

流程发现与机器学习方法的结合点

以聚类为例，如今业务流程的复杂性和动态变化，使得同一事件日志中的轨迹通常呈现出异质的特点，即日志来源于或对应于多个行为差异的业务流程，可以将机器学习中的聚类技术应用到此类日志，将其分解为一组同质的子日志。通过对聚类后的日志进行流程发现，可以有效地提高流程模型的可理解性和质量。

目前研究者已经提出了很多关于流程挖掘方面的聚类技术，例如将事件日志转换为向量空间模型，在每对轨迹之间定义距离度量，应用传统的聚类算法进行轨迹聚类；或者考虑轨迹上下文感知方式扩展已有方法；又如基于模型的序列聚类技术也适用于轨迹聚类。

2、合规性检查与机器学习

第2讲 | 合规性检查_北京凡得科技有限公司的博客-CSDN博客

流程发现与合规性检查是利用机器学习技术解决流程问题的关键。如果不预先发现流程并将事件数据与模型相一致，就不可能正确定义机器学习解决的问题。例如，要了解甚至预测一个瓶颈或合规性问题，首先需要确定潜在的问题，才能将事件数据转化为机器学习问题。

合规性检查与机器学习方法的结合点

● 违规根本原因分析：将事件日志中的轨迹按照合规性检查结果转换为数值特征，可以使用机器学习方法（决策树、随机森林、神经网络等分类算法）学习日志数据的特征表示，来分析导致违规事件的根本原因。如决策树算法可以通过描述不同合规性检查结果之间的差异，学习判别规则，发现哪些组织或执行人更容易导致违规的结果。

● 合规性检查算法推荐：目前有大量可用的对齐算法来计算事件日志和流程模型的合规性，许多算法在某些特定的场景下表现出色，要选择合适的算法需要用户了解自己的数据。利用机器学习分类算法可以预测哪种对齐算法可以为当前的事件日志和流程模型提供最佳的性能，在最合理的时间内获得合适的合规性检查结果。

3、数据处理与机器学习

第4讲 | 日志数据的提取、过滤和清洗_北京凡得科技有限公司的博客-CSDN博客_日志特征提取

机器学习可以通过提高事件日志的质量成为流程挖掘的支柱。在现实世界中获取的数据容易出错，比如数据不一致、轨迹不完整、缺少关键信息。直接对这些冗余、有偏差的事件日志进行处理，会挖掘得到不准确的模型，进而影响决策者进一步统筹规划与安排，同时还会耗费大量资源。机器学习技术可以通过提高事件日志的质量成为流程挖掘的支柱，有助于过滤、提取和提炼这些日志数据。

数据处理与机器学习方法的结合点

1、分类：分类方法是机器学习领域使用最广泛的技术之一，它可以依据历史数据形成刻画事物特征的类标识，进而预测未来数据的归类情况。目的是学会一个分类函数或分类模型（也称作分类器），该模型能把业务流程事件日志中的事物映射到给定类别中的某一个类。在分类模型中，我们期望根据一组特征来判断类别，这些特征代表了物体、事件或上下文相关的属性。

2、聚类：在机器学习中，聚类是一种无监督的学习，在事先不知道数据分类的情况下，根据数据之间的相似程度进行划分，目的是使同类别的数据对象之间的差别尽量小，不同类别的数据对象之间的差别尽量大。通常使用K-Means进行聚类，聚类算法LDA是一个在文本建模中很著名的模型，类似于SVD、PLSA等模型，可以用于轨迹中事件关系分析，在事件日志采样中是一个很有用的模型。

3、特征降维：特征降维自20世纪70年代以来获得了广泛的研究，尤其是近几年以来，随着业务过程时间日志规模的急剧增大，事件日志的轨迹数目和事件数都急剧增加，这种数据的海量性使得多数流程挖掘方法在可测量性和性能方面产生严重问题。例如，具有成百上千特征的高维事件日志，会包含大量的无关信息和冗余信息，这些信息可能极大地降低学习算法的性能。因此，当面临高维数据时，特征降维对于流程挖掘中的数据处理任务显得十分重要。特征降维从初始高维特征集中选出低维特征集合，以便根据一定的评估准则最优化、缩小特征空间的过程。特征降维能有效地消除事件日志中的无关和冗余特征，提高流程挖掘任务的效率。

4、流程预测与机器学习

第6讲 | 流程预测_北京凡得科技有限公司的博客-CSDN博客

流程预测通过对历史事件发生规律的探索，预测正在发生业务流程的未来情况。经典的流程预测是基于流程感知的方法，即借助流程发现从事件日志中挖掘模型的基础上进行预测，主要结合了发现的模型和对历史事件的统计分布。流程感知方法通过一个显示模型进行预测，相对容易理解和解释，但所发现的模型质量依赖于不同的挖掘算法，因此预测结果不一定准确。

机器学习是提高流程预测准确率的有效技术，其在分类、回归预测任务中具有十足的优势。完美契合了流程预测中的事件预测、时间预测及其属性预测等任务。随着业务流程事件日志质量的提高，机器学习在流程预测中的应用已成为主流。

流程预测与机器学习方法的结合点

依赖机器学习方法进行流程预测称为非流程感知方法，随着日志数据质量和数量的提升，深度学习模型也得到了广泛的应用。主要应用的技术和结合点如下：

1、预测模型：预测模型通过自身对数据的拟合能力提高预测的准确率。线性回归、支持向量机等基础模型可以拟合简单的日志数据；XGBoost、CatBoost、LightGBM等决策树算法采用分而治之的思想，具有训练速度快、稳定性强等特点；LSTM具有对先前输入信息的记忆能力，成为流程预测中广泛使用的主流算法；CNN、GAN等算法也被尝试应用于流程预测中，解决特征提取、优化训练结果等问题；Transformer采用自注意力机制和Encoder-Decoder模型，在流程预测中显示出了其拟合能力，得到了更准确的预测结果。

2、特征编码：特征编码主要是以向量编码的方式获取特征间的关系和事件的上下文信息，避免One-hot编码的维度爆炸情况。编码方式主要来自自然语言处理的词嵌入技术，Word2Vector和FastText基于局部语料，优化效率高；LSA利用全局语料特征，但求解计算复杂度大；Glove基于全局预料，结合了LSA和word2vec的优点；ELMO、GPT和BERT采用了动态特征，可以解决一词多意的问题。