Spark常见面试题

1、scala 语言有什么特点,相比java有什么优点?

2、什么是Scala的伴生类和伴生对象?

3、spark有什么特点,处理大数据有什么优势?

4、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?

5、Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?

6、Mapreduce和Spark有什么区别与联系?

7、简单说一下hadoop和spark的shuffle相同和差异?

8、Spark为什么比mapreduce快?

9、简要描述Spark分布式集群搭建的步骤?

10、spark的有几种部署模式,每种模式特点?

11、spark集群运算的模式有哪些?

12、Spark有哪些算子,列举几个你熟悉的?

13、spark中的RDD是什么,有哪些特性?

14、谈谈spark中的宽窄依赖?

15、cache和pesist有什么区别?

16、spark rdd 如何区分宽依赖和窄依赖?

17、RDD中reduceBykey与groupByKey哪个性能好,为什么?

18、spark streming在实时处理时会发生什么故障,如何停止,解决?

19、spark streaming 读取kafka数据的两种方式?

20、spark 如何防止内存溢出?

21、如何解决spark中的数据倾斜问题?

22、spark中的数据倾斜的现象、原因、后果?

23、Spark有哪些优化方法?

24、spark中如何划分stage?

25、spark有哪些组件? ?

26、Spark中Work的主要工作是什么?

27、Spark driver的功能是什么?

28、如何配置spark master的HA?

29、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

30、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?

31、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

32、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?

33、spark-submit的时候如何引入外部jar包?

34、spark面试需要储备哪些知识?

35、Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?

Spark Core是Spark的核心组件,主要负责任务调度、内存管理、错误恢复、与存储系统的交互等。以下是大数据常见面试题Spark Core: 1. 什么是Spark Core? Spark Core是Spark的核心组件,它提供了分布式任务调度、内存管理、错误恢复、与存储系统的交互等功能。 2. Spark Core的作用是什么? Spark Core的作用是管理Spark应用程序的整个生命周期,包括任务调度、内存管理、错误恢复、与存储系统的交互等。 3. Spark Core的优点是什么? Spark Core的优点包括高效的内存管理、快速的任务调度、灵活的错误恢复、与多种存储系统的兼容性等。 4. Spark Core如何实现任务调度? Spark Core通过DAG(有向无环图)来实现任务调度,将任务分解成多个阶段,每个阶段包含多个任务,然后按照依赖关系依次执行。 5. Spark Core如何实现内存管理? Spark Core通过RDD(弹性分布式数据集)来实现内存管理,将数据分成多个分区,每个分区可以在不同的节点上进行计算,从而实现高效的内存管理。 6. Spark Core如何实现错误恢复? Spark Core通过RDD的容错机制来实现错误恢复,当某个节点出现故障时,Spark会自动将该节点上的任务重新分配到其他节点上执行。 7. Spark Core如何与存储系统交互? Spark Core通过支持多种存储系统的API来与存储系统交互,包括HDFS、S3、Cassandra等。同时,Spark还提供了自己的内存存储系统——Tachyon。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值