1、分布式
2、主要基于内存(少数情况基于磁盘)
3、迭代式计算
与MapReduce进行比较:
总结:每一批节点上的每一批数据,实际上就是一个RDD,一个RDD是分布式的,所以数据都散落在一批节点上了,每个节点都存储了RDD的部分partition。
1、分布式
2、主要基于内存(少数情况基于磁盘)
3、迭代式计算
与MapReduce进行比较:
总结:每一批节点上的每一批数据,实际上就是一个RDD,一个RDD是分布式的,所以数据都散落在一批节点上了,每个节点都存储了RDD的部分partition。