- 什么是 Spark
- 定义
- Spark 是用于大规模数据处理的通用分析引擎
- 特色
- Spark 的特色
- 高速
- Spark 使用了最新的 DAG 调度方案,查询、优化和物理执行引擎,在批处理和“流”处理上都表现优异
- 易用
- 通用
- 多平台支持
- Spark 本身是可以独立运行的,当然,它也可以运行在 Hadoop、Mesos、Kubernetes,甚至是云平台上。它还支持访问各种不同的数据源,比如 HDFS、HBase、Hive、Cassandra 都是可以的。
- 内存化
- MapReduce 所有的中间结果都是保存在磁盘上;
- Spark 的中间结果是保存在内存中的。
- 高速
- Spark 的特色
- Spark 基础
- RDD
- RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称,它是 Spark 的一个基本数据结构,也是Spark 最核心的数据结构
- 两种操作
- Transformation(转换操作)
- Action(行动操作)
- 两种依赖关系
- 窄依赖关系
- 指的是生成下级 RDD 不会引起数据在不同的分区(Partition)之间进行迁移(Shuffle);
- 宽依赖关系
- 指的是要生成的 RDD 依赖于多个分区的数据,很明显这会导致处理速度的下降。
- 窄依赖关系
- 开发时需要注意的问题
- 数据倾斜
- 过多地使用 Action 操作
- 宽依赖过多
- RDD
- 定义
大数据技术基础知识总结十一
最新推荐文章于 2024-10-05 11:27:00 发布