Spark 练习测试题(答案仅供参考)

选择题

1. spark 的四大组件下面哪个不是   (D)
A.Spark Streaming      B MLlib      C Graph X    D Spark R

2. Hadoop框架的缺陷有  (ABC)
A.表达能力有限,MR编程框架的限制
B.过多的磁盘操作,缺乏对分布式内存的支持
C.无法高效低支持迭代式计算
D.海量的数据存储

3. 与hadoop相比,Spark主要有以下哪些优点(ABCD)
A. 提供多种数据集操作类型而不仅限于MapReduce
B. 数据集中式计算而更加高效
C. 提供了内存计算,带来了更高的迭代运算效率
D. 基于DAG的任务调度执行机制

4. YARN是负责集群资源调度管理的组件。不同的计算框架统一运行在YARN框架之上,具有哪些优点(ABCD)
A. 计算资源按需伸缩
B. 不同负载应用混搭,集群利用
C. 共享底层存储,避免数据跨集群迁移
D. 大大降低了运维成本

5.spark的特点包括(ABD)
A. 快速
B. 通用
C. 可延伸
D. 兼容性

6.以下哪个不是Spark的组件 (B)
A.DAGScheduler
B.MultiScheduler
C.TaskScheduler
D.SparkContext

7. Master 的 ElectedLeader 事件后不做哪些操作(ABC)
A. 通知 driver
B. 通知 worker
C. 注册 application
D. 直接 ALIVE

8. Spark driver的功能是什么(ABD)
A. 是作业的主进程
B. 负责了作业的调度
C. 负责向HDFS申请资源
D. 负责作业的解析

9. Task 运行在下来哪里个选项中 Executor 上的工作单元(C)
A. Driver program
B. spark master
C. worker node
D. Cluster manager

10. ClusterManager是  ( A )
A.主节点
B.从节点
C.执行器
D.上下文

11.Stage 的 Task 的数量由什么决定 ( A)
A.Partition    B.Job    C.Stage    D.TaskScheduler

12. SparkContext可以从哪些位置读取数据 ( ACD )
A.本地磁盘
B.web
C.hdfs
D.内存

13. 下面哪个不是 RDD 的特点(C)
A. 可分区
B. 可序列化
C. 可修改
D. 可持久化

14.RDD有哪些缺陷?  ( AD )
A. 不支持细粒度的写和更新操作(如网络爬虫)
B. 基于内存的计算
C. 拥有schema信息
D. 不支持增量迭代计算

15. 下面哪个操作是窄依赖 (B)
A. join
B. filter
C. group
D. sort

16.下面哪个操作肯定是宽依赖 (C )
A. map 
B. flatMap 
C. reduceByKey 
D. sample

17.Spark 的集群部署模式不包括  ( D )
A. standalone     B. spark on mesos      C. spark on YARN      D. Local

18. 下列哪个不是 RDD 的缓存方法(C)
A. persist()
B. Cache()
C. Memory()
D. 以上都不是

19. Spark默认的存储级别(A)
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER

20. 要读取people.json文件生成DataFrame,可以使用下列那些命令(AC)
A. spark.read.json("people.json")
B. spark.read.text("people.json")
C. spark.read.format("json").load("people.json")
D. spark.read.format("csv").load("people.json")

21. DataFrame 和 RDD 最大的区别(B)
A. 科学统计支持
B. 多了 schema
C. 存储方式不一样
D. 外部数据源支持

22. Spark SQL支持读取那些类型的文件(ABC)
A. text
B. json
C. parquet

23. 从RDD转换得到DataFrame包含两种典型的方法,分别是(AB)
A.利用反射机制推断RDD模式 
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联网机制推断RDD模式

24. 流计算的处理流程(BCD)
A. 实时数据存储
B.实时数据计算
C.实时查询服务
D.实时数据采集

25. SparkStreaming的基本输入源有哪几种(ACD)
A. 文件流
B. kafka
C. 套接字流
D. RDD队列流

26. MLlib包括 ( ABCD )
A. 分类模型
B. 聚类模型
C. 特征抽取
D. 统计模型

27.下面关于Spark MLlib库的描述正确的是(AC)
A. MLlib库从1.2版本以后分为两个包:spark.mllib和spark.ml
B. spark.mllib包含基于DataFrame的原始算法API
C. spark.mllib包含基于RDD的原始算法API
D. spark.ml则提供了基于RDD的、高层次的API

判断题

1. standalone(集群模式)典型的Mater/slave模式,Master可能有单点故障的;Spark支持ZooKeeper来实现 HA。(正确)

2. 构造数据Schema模式可以添加数据的列名称(正确)

3. Spark Streaming支持RDD的所有算子(正确)

4. Pipeline被设计用来管理一系列的阶段,每一个阶段都由PipelineStage来表示。(正确)

5. Spark ML提供两种类型的transformers:特征transformer和机器学习模型。(正确)

如有问题,可以评论区指正,私信也行

  • 21
    点赞
  • 270
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Hadoop和Spark是大数据处理领域中最流行的两个框架。以下是它们的知识点整理汇总: Hadoop: 1. Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。 2. Hadoop包括两个核心组件:HDFS(Hadoop分布式文件系统)和MapReduce(分布式计算框架)。 3. HDFS是一个分布式文件系统,用于存储大规模数据集。它将数据分成块并存储在不同的节点上,以实现数据的高可靠性和可扩展性。 4. MapReduce是一种分布式计算框架,用于处理大规模数据集。它将数据分成小块并在不同的节点上并行处理,以实现高效的数据处理。 5. Hadoop还包括其他组件,如YARN(资源管理器)和HBase(分布式NoSQL数据库)。 Spark: 1. Spark是一个快速、通用、可扩展的分布式计算框架,用于处理大规模数据集。 2. Spark的核心组件是Spark Core,它提供了分布式任务调度、内存计算和数据处理功能。 3. Spark还包括其他组件,如Spark SQL(用于结构化数据处理)、Spark Streaming(用于实时数据处理)和MLlib(用于机器学习)。 4. Spark使用RDD(弹性分布式数据集)作为其基本数据结构,它是一个可分区、可并行计算和可恢复的数据集合。 5. Spark支持多种编程语言,如Scala、Java、Python和R。 总结: Hadoop和Spark都是用于处理大规模数据集的分布式计算框架,它们有不同的核心组件和特点。Hadoop主要用于存储和处理大规模数据集,而Spark则更加注重数据处理的速度和效率。在实际应用中,可以根据具体需求选择合适的框架。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值