百度AIDU计划大数据一面面经

百度AIDU计划大数据一面面经(凉经)

整个流程如下:

首先进行自我介绍

项目相关内容介绍

1.项目介绍
2.项目的难点和实现的最核心的东西
3.整个项目中你做了什么?
4.时延是多少?
5.缓存多大的量?
6.redis旁路缓存的具体过程,如何保证数据一致性的

   总结:1.项目的内容我应该说实时数仓的相关内容
        2.具体内容的重点我应该说数据分流、旁路缓存和维度拼接的内容
   这一块需要再次组织语言,针对使用的内存量是多少之类的相关内容给出相应的界定
   里面常用的指标记忆几个 

spark相关内容

spark介绍:spark作为一个重点的内容进行复习
1.spark执行流程
typore的spark相关的内容,需要再好好看看
2.shuffle和宽窄依赖的关系
shuffle的过程
3.数据倾斜怎么处理的,加盐之后两次map reduce 关于数据倾斜的方案都好好进行处理
4.repartition
5.reducebykey 和 groupbykey的区别与联系
各个算子的作用好好看看
https://www.cnblogs.com/bonelee/p/7111395.html

   目前的理解:reducebykey 在一个partition内存中计算好之后再传递到下一个partition
              groupbykey 是在全部在内存中进行计算的,比较消耗内存
<
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值