Spark部分：RDD的五大特性【大数据开发面试】

最新推荐文章于 2023-06-15 10:54:33 发布

道法—自然

最新推荐文章于 2023-06-15 10:54:33 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/wyqwilliam/article/details/81606602

版权

本文深入探讨Spark的RDD特性，包括其作为弹性分布式数据集的定义，详细阐述RDD的五个关键特性：由Partition组成、函数作用于Partition、依赖关系、分区器在K,V格式RDD的应用以及如何通过Partition实现数据本地化。同时，文章还讨论了RDD的容错性和分布式特点，并举例说明RDD的创建和容错机制。" 106097929,7521098,自动化Linux服务器安全增强：JShielder,"['Linux安全', '服务器管理', '自动化工具', 'Web应用程序', 'CIS基准']

摘要由CSDN通过智能技术生成

Spark核心RDD
       1).RDD(Resilient Distributed Dateset)，弹性分布式数据集。Spark底层操作数据都是基于RDD。
       2).RDD五大特性：
           a).RDD由一系列Partition组成。
           b).函数（算子）是作用在partition上的。
           c).RDD之间有依赖关系。
           d).分区器是作用在K,V格式的RDD上。
           e).partition提供最佳计算位置，利于处理数据的本地化。符合“计算移动，数据不移动”
       3).注意：
           a).sc.textFile(...)读取HDFS中文件的方法，底层调用的是MR读取HDFS中文件的方法，首先会split，每个split大小默认
               与一个block大小相同，每个split与RDD中的一个partition对应。
           b).什么是K,V格式的RDD？
               RDD中元素是一个个的tuple2 二元组，这个RDD就是K,V格式的RDD。
           c).哪里体现了RDD的弹性（容错）？
               i).RDD之间有依赖关系
               ii).partition个数可多可少。
           d).哪里体现了RDD的分布式？
               partition是分布在多个节点上的。