目录
1. spark介绍
spark是基于内存计算的大数据并行计算框架。
特性:DAG执行引擎,可分布式,基于内存计算。
2. RDD理解
RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
2.1 RDD概念
RDD是spark中最基本的数据单元,它代表一个不可变、可分区、内部元素可并行计算的抽象数据集合。RDD由一组分片(Partition)组成。
2.2 Partition分片
Partition(分片):是RDD的基本组成单位,也是spark中参与计算的最基本的单元。正是由于RDD的分片属性,才保证了spark的可分布式计算能力。
2.3 Partitioner
当前Spark中实现了两种类型的分片函数,一个是基于哈希的HashPartitioner,另外一个是基于范围的RangePartitioner。分片是nosql中的