spark RDD
代码如雷
这个作者很懒,什么都没留下…
展开
-
spark RDD 简单了解
–什么是spark RDD RDD是一个弹性可复原的分布式数据集! –spark RDD 的特性 spark RDD 的特性最重要的有两个,一个是RDD 弹性,另外一个是 RDD 的容错性。 1.RDD 的数据默认情况下存放在内存中的,但是在内存资源不足时,spark 会自动将RDD 数据写入磁盘中,saprk 这种选择性的在内存和硬盘上的权衡机制就是RDD的弹性特点所在。 2.容错性,体现在可以...原创 2019-02-22 17:55:52 · 147 阅读 · 0 评论 -
spark RDD 的五种属性
1 一系列分区,分区有编号,有顺序的 2 每一个切片都会有一个函数作业在上面用于对数据进行处理 3 RDD和RDD之间存在依赖关系 4 可选,key value类型的RDD才有RDD[(K,V)])如果是kv类型的RDD,会一个分区器,默认是hash-partitioned -5 可以,如果是从HDFS中读取数据,会得到数据的最优位置(向Namenode请求元数据) ...原创 2019-03-11 15:17:40 · 358 阅读 · 0 评论