第4讲 | 日志数据的提取、过滤和清洗

任何程挖掘任务的起点都是记录的事件。

我们将事件的集合称作事件日志,不过这不代表事件就一定要存储在专门的日志文件中。事件可能存储在数据库表、消息日志、邮件档案、事务日志和其他数据源中。相比于存储格式,存储日志的质量更为重要,流程挖掘结果的质量很大程度上取决于输入。然而,事件日志经常仅仅被作为“副产品”用于调试或记录。例如,飞利浦公司生产的用于卫生保健的医疗设备会记录事件,仅仅是因为软件开发者在代码中插入了“打印语句”。尽管针对类似语句有很多非正式的规范,但是提高事件日志的质量需要更加系统化的方法。

文章目录

1、事件日志级别

2、数据预处理

3、数据提取

4、过滤数据

5、数据清洗

6、小结


1、事件日志级别

IEEE流程挖掘工作组制定的《流程挖掘宣言》中定义了从最高(★★★★★★)到最低(★)五个级别的事件日志成熟度,如下表所示。程挖掘技术可以应用于级别★★★★★,级别★★★★和级别★★★的日志。原则上程挖掘技术可以应用于级别★★或级别★的程日志,不过此类日志存在着明显问题并且结果不可信。因此程挖掘应用于级别★的日志没有太大意义。

级别

特征

★★★★★

最高级别:事件日志质量非常好,即可信的和完备的,并且事件定义良好。用自动、系统、可靠和安全的方式来记录事件。充分考虑隐私和安全性。此外,记录的事件(及其属性)有清晰的语义。

例如:BPM 系统的语义标注日志。

★★★★

用系统、可靠的方式自动记录事件,即事件是可信和完备的。与运行在级别★★★的系统不同,显式支持程实例和活动等概念。

例如:传统BPM/工作流系统中的事件日志。

★★★

自动记录事件,但不遵循系统化的方法。与级别★★的日志不同,此级别有一定的保障使记录的事件和事实相符(即事件日志是可信的,却不一定完备),例如一个 ERP系统记录的事件。尽管事件需要从多张表中提取,信息仍然可以被认为是正确的(例如,可以认为ERP记录的付款记录是真实存在的,反之亦然)。

例如:ERP 系统中的表、CRM 系统的事件日志、通信系统中的交易日志、高科技系统中的事件日志等。

★★

自动记录事件,并且没有系统化的方法来判断哪些事件得以记录。此外,某些业务活动可能会不通过信息系统从而不记录事件,所以事件可能会丢失或者没有得到正确记录。

例如:文档和产品管理系统的事件日志、嵌入式系统的错误日志、服务工程师的工作单等。

最低级别:事件日志质量很差。记录的事件可能与事实不符,并且可能会丢失事件。一般手工记录事件的事件日志会有这样的特点。

例如:组织内部路由的纸质文档流转记录、纸质病历卡等。

从信息系统中提取数据后,人们可以探索、预处理事件数据,以此作为流程挖掘的输入量,为流程挖掘提供数据基础。

2、数据预处理

 没有适当的事件日志,使用流程挖掘技术是无法获得有用信息。流程挖掘面临的挑战之一在于如何从各种数据源中提取这些数据,如数据库、一般文件、消息日志、交易日志、ERP系统和文档管理系统。在合并和提取数据时,语法和语义都起着重要作用。此外,由于选择的问题和视角不同,从相同的数据集中可能会提取出不同的事件日志。例如一个医院中的数据实例,有人对病人的流程,即典型的诊断和治疗路径感兴趣,也有人对优化放射科的工作流程感兴趣。两个问题需要不同的事件日志,尽管这些事件日志的信息会有一些重复。流程挖掘与其他数据驱动的分析方法一样,需要处理数据质量问题。

3、数据提取

 流程挖掘所需的数据预处理第一步是数据提取。数据源可能是简单的文本文件、Excel表格等,然而我们不能期望所有的数据都来自于单一的结构良好的数据源。事实上,典型的事件数据通常分散在不同的数据源中,往往需要大量的工作来将其收集到一起。例如,一个完整的包含超过一万张表的SAP系统,可能会由于技术或组织上的原因而导致数据分散。数据源可能是结构化的,并由元数据很好地描述。然而在许多情况下,数据是非结构化的或者缺少重要的元数据。数据可能来自于网页、电子邮件、PDF文档、扫描文本、截屏图片等。即使数据是结构化的并由元数据描述,企业信息系统的复杂性也可能让人难以承受,试图从成千上万的表格和其他数据源中完整地提取事件日志是没有意义的。因此,数据提取的根本出发点应该是问题驱动,而不是基于大量可用的数据本身。

4、过滤数据

一旦从数据中提取了事件日志,下一步就是过滤数据。过滤是一个迭代的过程。粗粒度的范围选择在提取数据存储到事件日志的生成过程中就已实现。过滤是基于初步分析结果进行细粒度的范围选择。例如在流程挖掘过程中我们可以选择关注最频繁出现的10个活动,使得流程模型更易于管理。基于过滤后的日志,可以应用不同类型的流程挖掘技术,如流程发现、合规性检查和流程增强。

5、数据清洗

为了将流程挖掘技术应用于提取和过滤后的事件日志,事件需要与实例相关联。一个流程模型描述了一个特定类型的实例生命周期,传统流程模型中的所有活动都对应于这样一个实例状态变化。数据应该进行清洗处理,以获得与代表实际流程实例有关的事件。

6、小结

高质量的数据是流程挖掘以及其他相关技术性能提升的关键。大数据和万物互联的时代为我们提供了大量的流程数据。提高数据的质量,除了数据预处理技术,还要依靠数据生成过程中的填写和存储规范。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值