大数据面试题
文章平均质量分 77
中国好胖子、
学不死就往死里学,比你优秀的人比你还努力,你还拿什么和别人拼
展开
-
大数据面试题
1、MR与Spark的区别 hadoop中的一个任务称为job,一个job分为map task和reduce task 每个task都是在自己的进程中运行的,当task 运行结束以后,进程也会结束 spark的一个任务叫做application,一个application中有多个job,每触发一次action操作就会产生一个job,这些job可以并行也可以串行计算,每个job中有多个stage,stage是shuffle过程中DAGScheduler通过RDD之间的依赖关系划分job而来的,每个stage原创 2020-11-11 00:21:43 · 306 阅读 · 0 评论 -
HDFS面试题
HDFS面试题 1、Hdfs的block和spark的partition有什么区别吗? 在hdfs中的block是分布式存储的最小单元,等分,并且可以设置冗余,这样设计会出现一部分磁盘空间的浪费,但是整齐的block大小,便于快速找到,读取对应的内容,例如快手利用hdfs来进行存储视频。 Spark中的parition是弹性分布式数据集中rdd的最小单元,rdd是由分布在各个节点上的partition组成的。partition是指在spark计算过程中,生成的数据在计算空间内的最小单元,同一份数据,par原创 2020-10-26 15:24:09 · 1485 阅读 · 0 评论