Spark 总复习

本文全面复习了Spark的基础知识,包括Spark与Hadoop的区别,Spark集群运行流程,以及Spark的容错机制。Spark与Hadoop的主要区别在于编程模型的灵活性,数据存储方式,处理效率和容错策略。Spark的容错机制通过血统和检查点实现数据恢复。此外,文章还介绍了RDD的特性、Stage划分和Spark Streaming的工作原理。
摘要由CSDN通过智能技术生成

一、基础题

1、Scala 语言的特性包含面向对象编程函数式编程静态类型可扩展可交互操作
2、Scala 中获取元祖中的值是通过下划线加脚标来获取的
3、Scala 中,模式匹配是由关键字matchcase组成的
4、Scala 中提供的常见数据结构有数组元祖集合
5、在 Scala 中使用case关键字来定义的类被称为样例类
6、在 Scala 中使用object关键字创建的对象为单例对象
7、在 Scala 中Trait(特质) 的功能类似于Java中的接口
8、Spark 生态系统主要包括Spark CoreSpark SQLSpark StreamingMLibGraphX以及独立调度器
9、Spark 的部署模式分为本地单机模式集群模式,集群模式又分为Standalone模式Mesos模式Yarn模式
10、Spark 运行框架主要是由SparkContextCluster ManagerWorker组成
11、Spark 的特点,速度快易用性通用性兼容性
12、Spark 是基于内存计算的大数据并行计算框架
13、配置 Spark 集群时,需要修改配置文件spark-env.shprofileslaves
14、RDD 是一个容错的并行的数据结构,本质为分布式的数据集合
15、创建 RDD 的方法是textFileparallelize
16、RDD 采用了惰性调用,在 RDD 的处理过程中,真正的计算发生在RDD 的 “行动” 操作
17、RDD 的转换算子: filter(func)map(func)flatmap(func)groupByKey(func)reduceByKey(func)
18、RDD 的分区原则: Local模式下,分区的个数尽量等同于集群中 CPU 的核数Standalone模式或者Yarn模式下,分区数"在集群中所有的 CPU 核数总和"与"2" 这两者中较大值为默认值Mesos模式下,默认的分区数是8
19、RDD 的依赖关系分为宽依赖窄依赖
20、RDD 持久化机制的存储级别默认的是MEMORY_ONLY
21、RDD 持久化操作有两个方法分别为cache() 方法persist() 方法
22、RDD 提供了两种故障恢复的方式,分别是血统方式设置检查点方式
23、消息传递模式分为点对点消息传递模式发布订阅式消息传递模式

  • 7
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

喝着奶茶敲实验

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值