7 sparkStreaming实时数仓总结
1、SparkStreaming实时数仓用到的存储介质都干啥事了
--实时数仓中存储介质都干了些啥?
1. redis 64G
①存mid到set集合,重复的mid返回0则被过滤达到去重的目的(保留第一次启动数据)
②窗口法双流join的去重
③缓存法双流join缓存流数据
④手动保存偏移量(除了消费dws_order_wide主题)
2. hbase
①从ods层消费维度表(主题)写到hbase(维度表的dwd层,初始化维度表只做一次)
②user_status记录下了单的user_id
3. MySQL
①模拟的业务数据到MySQL
②热门品牌分析结果和手动保存偏移量(消费dws_order_wide),两者要求事务性
4. es 搜索引擎(全文检索)
①每个设备的首次启动日志数据写到es,分析日活和小时日活
②首单分析的结果写入es,每条数据标记是否首单is_first_order(dwd层),分析首单的订单数据
5. clickhouse
①存放双流join后的结果和商品分摊金额,包括销售额和小时销售额
![img](https://img-blog.csdnimg.cn/20201126170349770.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NjY2OTg1Ng==,size_16,color_FFFFFF,t_70#pic_center)
2、SparkStreaming实时数仓要点
![img](https://img-blog.csdnimg.cn/img_convert/422028a9e0ecd0b861e4e1106e91bf91.png)
3 日志数据
![img](https://img-blog.csdnimg.cn/img_convert/991e7a7b5a3171fab87d2acbbb9e19ea.png)
4 业务数据
![img](https://img-blog.csdnimg.cn/img_convert/435e81c3a2d1ad883820295e78fdd8ec.png)
![](https://img-blog.csdnimg.cn/img_convert/6b7e3b2dc9dd8a765232f61311a7ace7.png)