1、MapReduce的流程
几个shuffle,几个partition,几次落地磁盘,在combiner里边都做了什么事情
在切分的时候,1029M会切分成几个切片
2、怎么能够确保消费kafka中的数据不重复,也不丢失
不重复可以通过设置zookeeper保存offset来设定
如果sparkstreaming消费kafka中的数据,消费了一部分之后发现数据处理的有问题,需要重新做处理,这时候怎么消费,怎么做。
3、spark基于yarn模式的理解,画图说明
4、hive底层是怎么实现的
5、画图说明MapReduce计算Wordcount,每一步的结果是什么
6、MapReduce计算Wordcount,需要实现那几个超类,分别是什么,知道几个。
7、kafka中增加并发量的方式有那几种方式
8、MapReduce中inputformat与 outputFormat
9、MapReduce中1029M数据是则么切分的
10、对hive的理解,什么是元数据,元数据都人为哪几种