百度AIDU计划大数据一面面经

最新推荐文章于 2024-06-11 16:56:00 发布

weixin_43829407

最新推荐文章于 2024-06-11 16:56:00 发布

阅读量972

点赞数 2

分类专栏：大数据面经文章标签： spark flink

本文链接：https://blog.csdn.net/weixin_43829407/article/details/118092940

版权

百度AIDU计划大数据一面面经（凉经）

整个流程如下：

整个流程如下：

首先进行自我介绍

项目相关内容介绍

1.项目介绍
2.项目的难点和实现的最核心的东西
3.整个项目中你做了什么？
4.时延是多少？
5.缓存多大的量？
6.redis旁路缓存的具体过程，如何保证数据一致性的

   总结：1.项目的内容我应该说实时数仓的相关内容
        2.具体内容的重点我应该说数据分流、旁路缓存和维度拼接的内容
   这一块需要再次组织语言，针对使用的内存量是多少之类的相关内容给出相应的界定
   里面常用的指标记忆几个

spark相关内容

spark介绍：spark作为一个重点的内容进行复习
1.spark执行流程
typore的spark相关的内容，需要再好好看看
2.shuffle和宽窄依赖的关系
shuffle的过程
3.数据倾斜怎么处理的，加盐之后两次map reduce 关于数据倾斜的方案都好好进行处理
4.repartition
5.reducebykey 和 groupbykey的区别与联系
各个算子的作用好好看看
https://www.cnblogs.com/bonelee/p/7111395.html

   目前的理解：reducebykey 在一个partition内存中计算好之后再传递到下一个partition
              groupbykey 是在全部在内存中进行计算的，比较消耗内存
<

最低0.47元/天解锁文章

weixin_43829407

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
百度AIDU计划大数据一面面经

百度AIDU计划大数据一面面经（凉经）整个流程如下：项目相关内容介绍spark相关内容JVM 相关内容整个流程如下：首先进行自我介绍项目相关内容介绍1.项目介绍2.项目的难点和实现的最核心的东西3.整个项目中你做了什么？4.时延是多少？5.缓存多大的量？6.redis旁路缓存的具体过程，如何保证数据一致性的总结：1.项目的内容我应该说实时数仓的相关内容 2.具体内容的重点我应该说数据分流、旁路缓存和维度拼接的内容这一块需要再次组织语言，针对使用的内存量是多少
复制链接

扫一扫