【实时数仓】DWM层跳出明细计算之需求分析、读取数据、通过Flink的CEP完成跳出判断、写回kafka、测试

OneTenTwo76

于 2022-12-18 10:30:00 发布

阅读量816

点赞数

分类专栏：实时数仓文章标签： flink kafka java

本文链接：https://blog.csdn.net/weixin_43923463/article/details/128322002

版权

一 DWM层-跳出明细计算

1 需求分析与思路

（1）什么是跳出

跳出：用户成功访问了网站的一个页面后就退出，不再继续访问网站的其它页面。而跳出率就是用跳出次数除以访问次数。

关注跳出率，可以看出从某几个网站引流过来的访客是否能很快的被吸引，渠道引流过来的用户之间的质量对比，对于应用优化前后跳出率的对比也能看出优化改进的成果。

（2）计算跳出行为的思路

首先要识别哪些是跳出行为，要把这些跳出的访客最后一个访问的页面识别出来。那么要抓住几个特征：

该页面是用户近期访问的第一个页面（新的会话）

这个可以通过该页面是否有上一个页面（last_page_id）来判断，如果这个表示为空，就说明这是这个访客这次访问的第一个页面。
首次访问之后很长一段时间（自己设定，一般为30min），用户没继续再有其他页面的访问。

这第一个特征的识别很简单，保留last_page_id为空的就可以了。但是第二个访问的判断，其实有点麻烦，首先这不是用一条数据就能得出结论的，需要组合判断，要用一条存在的数据和不存在的数据进行组合判断。而且要通过一个不存在的数据求得一条存在的数据。更麻烦的它并不是永远不存在，而是在一定时间范围内不存在。那么如何识别有一定失效的组合行为呢？

最简单的办法就是Flink自带的复杂事件处理（CEP）技术。CEP非常适合通过多条数据组合来识别某个事件。

用户跳出事件，本质上就是一个条件事件加一个超时事件的组合。

（3）实现思路

实现思路如下：

在这里插入图片描述

从kafka中读取数据。
使用CEP对数据进行过滤。
- 该页面是用户近期访问的第一个页面。
- 如果在指定时间内，有当前设备对网站其他页面的访问，说明发生了跳转。
- 反之，则发生了跳出。
- 可以使用within指定匹配的时间；涉及到了时间，flink1.12默认的时间语义就是事件时间语义，需要指定watermark以及提取事件时间字段。
使用CEP编程步骤
- 定义pattern
- 将pattern应用到流上
- 从流中按照指定的模式提取数据

在这里插入图片描述

2 读取数据

从kafka的dwd_page_log主题中读取页面日志。

（1）代码编写

/**
 * 用户跳出明细统计
 */
public class UserJumpDetailAPP {
   
    public static void main(String[] args) throws Exception {
   
        //TODO 1 基本环境准备
        //1.1 流处理环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        //1.2 设置并行度
        env.setParallelism(4);
        //TODO 2 检查点设置（略）

        //TODO 3 从kafka中读取数据
        //3.1 声明消费主题以及消费者组
        String topic = "dwd_page_log";
        String groupId = "user_jump_detail_app_group";
        //3.2 获取kafka消费者对象
        FlinkKafkaConsumer<String> kafkaSource = MyKafkaUtil.getKafkaSource(topic, groupId);
        //3.3 读取数据封装流
        DataStreamSource<String> kafkaDS = env.addSource(kafkaSource);

        //TODO 4 对读取的数据进行类型转换 String -> JSONObject
        SingleOutputStreamOperator<JSONObject> jsonObjDS = kafkaDS.map(JSON::parseObject);
        jsonObjDS.print(">>>");

        env.execute();
    }
}

（2）测试

启动相关进程，模拟日志生成，查看是否可以正常接收到数据。

3 通过Flink的CEP完成跳出判断

（1）确认添加了CEP的依赖包

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-cep_${scala.version}</artifactId>
    <version>${flink.version}

最低0.47元/天解锁文章

OneTenTwo76

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【实时数仓】DWM层跳出明细计算之需求分析、读取数据、通过Flink的CEP完成跳出判断、写回kafka、测试

跳出：用户成功访问了网站的一个页面后就退出，不再继续访问网站的其它页面。而跳出率就是用跳出次数除以访问次数。关注跳出率，可以看出从某几个网站引流过来的访客是否能很快的被吸引，渠道引流过来的用户之间的质量对比，对于应用优化前后跳出率的对比也能看出优化改进的成果。首先要识别哪些是跳出行为，要把这些跳出的访客最后一个访问的页面识别出来。那么要抓住几个特征：- 该页面是用户近期访问的第一个页面（新的会话）这个可以通过该页面是否有上一个页面（last_page_id）来判断，如果这个表示为空，就说明
复制链接

扫一扫