一、招聘的岗位要求(偏离线建模方向):
1.数据建模。2大数据组件。3.海量数据的处理能力
二、面试总时长:30分钟
三、面试的的具体内容如下:
1.自我介绍
2.讲一下MR流程
3.讲一下HDFS的HA模式,以及NN中的checkpoint作用
4.是否了解YARN,讲一下流程
5.讲一下数据倾斜怎么处理?
6.两个数据量很大的表,JOIN关联KEY的值都是10000,怎么优化
7.讲一下SPARK与MR的区别
8.讲一下FLINK与SPARK的区别
9.讲一下SPARK的流程
10.有如下海量数据如何实现
a a
1011 1,3,4
0110 2,3
11.两张1T表,要对多个字段做DISTINCT处理,怎么优化
四、面试感受
对比之前字节的面试同学,要专业很多。无论从技术方面,节奏把控,问题引导等方面,整体面下来感受都还不错,虽然面的是离线建模,被问了一堆技术问题,坦白的讲,很多spark的问题,都答的不好,但还是比较开心,能探查到行业内数据的发展情况;想对后面找工作的同学说下:现在市场真的是要软硬实力结合,建模思维要有,大数据组件要会,两手都要抓,两手都要硬;要不然真的很被动;另外DAMA的认证已经开始了,未来鉴于湖仓一体,NOETL的实现,数据治理真的会越来越重要;