大数据专业:
面试:
linux:
tail -f F 区别
hadoop:
读写流程、yarn、mapreduce【不会问的、shuffle】
hdfs:
小文件如何解决
nn ha
yarn ha
hive:
1.sql
2.调优:
1.数据倾斜=》
join
group by
2.使用过哪些参数
flume:tail -f F 区别
1.架构设计
2.业务场景 -
架构设计
source:
taildir
sink:
failover 、loadbanlance
3.如何解决 flume 延迟数据:
4.监控flume
ganglia =》 java web接口
kafka:
1.架构设计
2. 数据查找 log文件 、index
isr、
3.给几个分区:
1. 1
2. broker台数 个数
spark:
1.sparksql 理解
2.spark on yarn :
提交参数 mem core
3.spa