字节跳动大数据开发一面总结

一、招聘的岗位要求(偏离线建模方向):

1.数据建模。2大数据组件。3.海量数据的处理能力

二、面试总时长:30分钟

三、面试的的具体内容如下:

1.自我介绍

2.讲一下MR流程

3.讲一下HDFS的HA模式,以及NN中的checkpoint作用

4.是否了解YARN,讲一下流程

5.讲一下数据倾斜怎么处理?

6.两个数据量很大的表,JOIN关联KEY的值都是10000,怎么优化

7.讲一下SPARK与MR的区别

8.讲一下FLINK与SPARK的区别

9.讲一下SPARK的流程

10.有如下海量数据如何实现

a                    a

1011           1,3,4

0110           2,3

11.两张1T表,要对多个字段做DISTINCT处理,怎么优化

四、面试感受

对比之前字节的面试同学,要专业很多。无论从技术方面,节奏把控,问题引导等方面,整体面下来感受都还不错,虽然面的是离线建模,被问了一堆技术问题,坦白的讲,很多spark的问题,都答的不好,但还是比较开心,能探查到行业内数据的发展情况;想对后面找工作的同学说下:现在市场真的是要软硬实力结合,建模思维要有,大数据组件要会,两手都要抓,两手都要硬;要不然真的很被动;另外DAMA的认证已经开始了,未来鉴于湖仓一体,NOETL的实现,数据治理真的会越来越重要;

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值