整个流程如下:
首先进行自我介绍
项目相关内容介绍
1.项目介绍
2.项目的难点和实现的最核心的东西
3.整个项目中你做了什么?
4.时延是多少?
5.缓存多大的量?
6.redis旁路缓存的具体过程,如何保证数据一致性的
总结:1.项目的内容我应该说实时数仓的相关内容
2.具体内容的重点我应该说数据分流、旁路缓存和维度拼接的内容
这一块需要再次组织语言,针对使用的内存量是多少之类的相关内容给出相应的界定
里面常用的指标记忆几个
spark相关内容
spark介绍:spark作为一个重点的内容进行复习
1.spark执行流程
typore的spark相关的内容,需要再好好看看
2.shuffle和宽窄依赖的关系
shuffle的过程
3.数据倾斜怎么处理的,加盐之后两次map reduce 关于数据倾斜的方案都好好进行处理
4.repartition
5.reducebykey 和 groupbykey的区别与联系
各个算子的作用好好看看
https://www.cnblogs.com/bonelee/p/7111395.html
目前的理解:reducebykey 在一个partition内存中计算好之后再传递到下一个partition
groupbykey 是在全部在内存中进行计算的,比较消耗内存
<