Flink流式处理框架中的CEP介绍

写个BUG吧

已于 2022-05-09 14:55:10 修改

阅读量1.3k

点赞数 1

分类专栏：大数据文章标签： flink 大数据 big data

于 2022-05-09 14:48:47 首次发布

原文链接：https://blog.csdn.net/leying521/article/details/106835672

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文深入介绍了Flink中的复杂事件处理(CEP)库，用于在无界事件流中检测模式。CEP的目标是从简单事件流中发现高级特征，通过Pattern API定义和识别事件模式。内容涵盖了个体模式、模式序列、模式检测及匹配事件的提取等关键概念，并探讨了时间约束和超时事件处理。

摘要由CSDN通过智能技术生成

一、什么是CEP

1）复杂事件处理（Complex Event Processing，CEP）；

2）Flink CEP是在Flink中实现的复杂事件处理（CEP）库；

3）CEP允许在无休止的事件流中检测事件模式，让我们有机会掌握数据中重要的部分；

4）一个或多个由简单事件构成的事件流通过一定的规则匹配，然后输出用户想得到的数据——满足规则的复杂事件；

二、CEP的特点

1）目标：从有序的简单事件流中发现一些高阶特征；

2）输入：一个或多个由简单事件构成的事件流；

3）处理：识别简单事件之间的内在联系，多个符合一定规则的简单事件构成复杂事件；

4）输出：满足规则的复杂事件；

三、Pattern API

1）处理时间的规则，被叫做“模式”（Pattern）；

2）Flink CEP提供了Pattern API，由于对输入流数据进行复杂事件规则定义，用来提取符合规则的事件序列；

4）个体模式（Individual Patterns）

——组成复杂规则的每一个单独的模式定义，就是“个体模式”；

5）组合模式（Combining Patterns，也叫模式序列）

—— 很多个体模式组合起来，就形成了整个的模式序列；

—— 模式序列必须以一个“初始模式”开始：

6）模式组（Groups of patterns）

—— 将一个模式序列作为条件嵌套在个体模式里，成为一组模式

1、个体模式（Individual Patterns）

1）个体模式可以包括“单例（singleton）模式”和“循环（looping）模式”；

2）单例模式只接收一个事件，而循环模式可以接收多个；

》》量词（Quantifier）

—— 可以在一个个体模式后追加量词，也就是指定循环次数；

1.1 个体模式的条件

》》条件（Condition）

—— 每个模式都需要指定触发条件，作为模式是否接收事件进入的判断依据；

—— CEP中的个体模式主要通过调用.where() .or() 和 .until()来指定条件；

—— 按不同的调用方式，可以分成以下几类：

1）简单条件（Simple Condition）

—— 通过.where()方法对事件中的字段进行判断筛选，决定是否接受该事件

2）组合条件（Combining Condition）

—— 将简单条件进行合并； .or()方法表示或逻辑相连，where的直接组合就是AND

3）终止条件（Stop Condition）

—— 如果使用了oneOrMore 或者 oneOrMore.optional，建议使用.until()作为终止条件，以便清理状态；

4）迭代条件（Iterative Condition）

—— 能够对模式之前所有接收的事件进行处理；

—— 调用.where((value, ctx)=>{...})，可以调用ctx.getEventsForPattern("name")

2、模式序列

1）不同的“近邻”模式

2）严格近邻（Strict Contiguity）

—— 所有事件按照严格的顺序出现，中间没有任何不匹配的事件，由.next()指定；

—— 例如对于模式“a next b”，事件序列[a,c,b1,b2]没有匹配；

3）宽松近邻（Relaxed Contiguity）

—— 允许中间出现不匹配的事件，由.followedBy()指定；

—— 例如对于模式“a followedBy b”，事件序列[a, c, b1, b2]匹配为｛a, b1｝;

4）非确定性宽松近邻（Non-Deterministic Relaxed Contiguity）

—— 进一步放宽条件，之前已经匹配过的事件也可以再次使用，由.followedByAny()指定；

—— 例如对于模式“a followedByAny b”，事件序列[a, c, b1, b2]匹配为｛a, b1｝，｛a, b2｝

5）除以上模式序列外，还可以定义“不希望出现某种近邻关系”：

—— .notNext() —— 不想让某个事件严格紧邻前一个事件发生；

—— .notFollowedBy() —— 不想让某个事件在两个事件之间发生；

6）需要注意：

—— 所有模式序列必须以.begin()开始；

—— 模式序列不能以.notFollowedBy()结束；

—— “not”类型的模式不能被optional所修饰；

—— 此外，还可以为模式指定时间约束，用来要求在多长时间内匹配有效

3、模式的检测

1）指定要查找的模式序列后，就可以将其应用于输入流已检测潜在匹配；

2）调用CEP.pattern()，给定输入流和模式，就能得到一个PatternStream

4、匹配事件的提取

1）创建PatternStream之后，就可以应用select或者flatselect方法，从检测到的事件序列中提取事件了；

2）select（）方法需要输入一个select function作为参数，每个成功匹配的事件序列都会调用它；

3）select()以一个Map[String, Iterable[IN]]来接收匹配到的事件序列，其中key就是每个模式的名称，而value就是所有接收到的事件的Iterable类型

5、超时事件的提取

1）当一个模式通过within关键字定义了检测窗口时间时，部分事件序列可能因为超过窗口长度而被丢弃；为了能够处理这些超时的部分匹配，select和flatSelect API调用允许指定超时处理程序；

2）超时处理程序会接收到目前为止由模式匹配到的所有事件，由一个OutputTag定义接收到的超时事件序列

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。