![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据项目
文章平均质量分 89
自学大数据的菜鸡
这个作者很懒,什么都没留下…
展开
-
Flink实时数仓项目—DWS层设计与实现
Flink实时数仓项目—DWS层设计与实现前言三、DWS层—地区主题表的实现1.地区主题需求2.地区主题表实体类的设计2.1 维度字段2.2 度量字段2.3 其他字段3.功能实现3.1 获取表环境3.2 DDL读取数据3.3 开窗分组聚合统计3.4 写入ClickHouse4.ClickHouse表的创建四、DWS层—关键词主题表的实现1.关键词主题需求2.分词说明3.实体类的创建4.功能实现4.1 IK分词器的使用4.2 自定义函数4.3 编写主程序5、ClickHouse表的创建前言前面使用Dat原创 2022-04-22 18:39:42 · 2320 阅读 · 0 评论 -
Flink实时数仓项目—DWS层设计与实现
Flink实时数仓项目—DWS层设计与实现前言一、需求梳理1.需求梳理2.DWS层定位二、DWS层—访客主题宽表的实现1.访客主题的需求2.访客主题宽表的设计3.实现思路4.代码实现三、DWS层—商品主题宽表的实现1.商品主题需求2.商品主题宽表的设计2.1 维度字段2.2 度量值2.3 其他字段3.商品主题宽表实体类4.功能实现前言在前面通过使用分流等方法,把数据拆分成了独立的Kafka Topic,接下来我们就要根据需求得出要计算哪些指标项。我们把指标以主题宽表的形式输出就是DWS层要做的事情。原创 2022-04-21 20:19:01 · 1814 阅读 · 0 评论 -
Flink实时数仓项目—DWD层设计与实现
Flink实时数仓项目—DWD层设计与实现前言一、功能四:支付宽表1.需求描述2.实现思路2.1 思路一2.2 思路二2.3 思路选择3.代码实现3.1 创建支付实体类3.2 创建支付宽表实体类3.3 主程序前言前面完成了三个功能,最后一个功能是支付宽表,与订单宽表有类似的地方。一、功能四:支付宽表1.需求描述业务数据库中的支付表的粒度是一整条订单,但是这里的需求中有计算某商品的支付情况,因此需要将支付表和订单宽表进行关联,方便后续对某商品的支付情况的统计。2.实现思路2.1 思路一因为原创 2022-04-19 19:18:56 · 1520 阅读 · 0 评论 -
Flink实时数仓项目—DWD层设计与实现
Flink实时数仓项目—DWD层设计与实现前言一、功能三:订单宽表1.需求描述2.需求分析3.思路分析与代码实现3.1 实体类的创建3.2 读取Kafka订单数据和订单明细数据3.3 双流Join—关联事实表3.4 关联维度表二、优化:关联维度表优化—旁路缓存1.旁路缓存选型2.Redis设计3.代码实现前言前面已经完成了两个功能,下面实现订单宽表的功能,比较复杂,所以单独列出来。一、功能三:订单宽表1.需求描述订单在电商中属于比较重要的分析对象,关于订单也有许多的维度统计需求,比如用户、地区原创 2022-04-19 16:42:27 · 403 阅读 · 0 评论 -
Flink实时数仓项目—DWD层设计与实现
Flink实时数仓项目—DWD层设计与实现前言一、DWM层设计1.设计思路2.DWS层需求梳理2.DWM层需求整理二、功能一:访客UV计算的设计与实现1.需求说明2.需求分析3.代码实现三、功能二:跳出明细计算1.需求说明2.需求分析3.代码实现前言在前面已经将日志数据进行了分流写入到了Kafka的不同主题,也已经将业务数据中的事实数据放到了Kafka,维度数据放到了HBase中,接下来要进行DWM层的设计。DWM 层的定位是什么,DWM 层主要服务 DWS,因为部分需求直接从 DWD 层到DWS原创 2022-04-15 17:22:12 · 1116 阅读 · 0 评论 -
Flink实时数仓项目—ODS&DWD&DIM层总结
Flink实时数仓项目—ODS&DWD&DIM层总结前言一、ODS层二、DWD&DIM层1.行为数据2.业务数据前言到这里已经完成了Flink实时数仓项目的ODS层、DWD层&DIM层的设计和实现了,进行一个简单的总结。一、ODS层需要掌握以下内容:项目的数据来源:行为数据,业务数据架构分析:实时数仓的项目架构Flink-CDC: DataStream/Flink原创 2022-04-13 22:34:29 · 1284 阅读 · 0 评论 -
Flink实时数仓项目—ODS层业务数据到DWD层
Flink实时数仓项目—ODS层业务数据到DWD层前言一、ODS层业务数据处理1.ETL过滤空值数据2.实现动态分流功能二、功能实现1.ETL空值过滤2.维度数据存储的选择3.动态分流再分析2.1 思路一(Pass)2.2 思路二4.思路二实现4.1 配置表字段的确定4.2 TableProcess实体类的创建4.3 Flink-CDC处理配置表4.4 处理主流数据和广播数据前言前面已经将日志数据和业务数据采集到了Kafka中,Kafka中的ods_xx主题就作为了实时数仓的ODS层。同时,已经完成了原创 2022-04-13 19:52:14 · 1668 阅读 · 0 评论 -
Flink实时数仓项目—ODS层日志数据到DWD层
Flink实时数仓项目—ODS层日志数据到DWD层前言一、日志数据需要做的处理1.识别新老用户2.日志数据的处理3.发送数据到Kafka二、功能实现1.读取Kafka数据并转换数据格式2.识别新老用户3.日志数据分流4.分流后的数据写入Kafka对应主题前言前面已经将日志数据和业务数据采集到了Kafka中,Kafka中的ods_xx主题就作为了实时数仓的ODS层。行为日志分为三类,页面日志、启动日志和曝光日志,这三类日志的格式不一样,我们需要分别进行处理,然后将处理完的数据再写入到Kafka中,作为原创 2022-04-12 11:56:03 · 1275 阅读 · 0 评论 -
Flink实时数仓项目—业务数据采集
Flink实时数仓项目—业务数据采集前言一、采集工具选型二、Flink-CDC学习三、MySQL数据准备1.binlog的配置2.模拟生成数据前言前面完成了日志数据的采集,下面进行业务数据的采集。一、采集工具选型实时数仓相关采集工具的选型在这篇文章中有提到:Flink实时数仓各种CDC对比二、Flink-CDC学习业务数据采集选取了Flink-CDC,Flink-CDC的学习及使用在这里:Flink-CDC 2.0学习及使用三、MySQL数据准备前提条件:业务数据存放在MySQL中,首先原创 2022-04-10 22:26:40 · 2774 阅读 · 1 评论 -
Flink实时数仓项目—日志数据采集
Flink实时数仓项目—日志数据采集前言一、日志数据采集1.模拟日志生成器的使用2.使用流程3.创建日志采集springboot程序4.进行Nginx配置5.日志采集流程测试前言实时数仓项目的数据来源有两个,一个是用户行为日志数据,一个是业务数据库中的业务数据,我们需要对这两部分数据进行采集,先进行用户行为日志数据的采集。一、日志数据采集1.模拟日志生成器的使用因为日志数据是用户通过点击等操作产生的,所以没办法拿到真实的数据,这里使用模拟生成日志数据的方式来生成日志数据。主要流程:运行生成日原创 2022-04-10 18:15:38 · 3645 阅读 · 0 评论 -
Flink实时数仓项目—项目初了解
Flink实时数仓项目—项目初了解前言一、实时数仓分层介绍1.普通的实时计算与实时数仓比较2.实时电商数仓分层规划二、实时数仓需求概览1.离线计算和实时计算的比较2.实时需求种类2.1 日常统计报表或分析图中需要包含当日部分2.2 实时数据大屏监控2.3 数据预警或提示2.4 实时推荐系统三、数仓架构分析1.离线数仓架构2.实时数仓架构前言学习完了Flink1.13,拿个项目练练手。一、实时数仓分层介绍1.普通的实时计算与实时数仓比较普通的实时计算和实时数仓有什么区别?或者说实时数仓为什么要分原创 2022-04-10 16:25:32 · 4054 阅读 · 0 评论