RDD(Resilient Distributed Datasets) ,弹性分布式数据集,是一个抽象 一些列分区,分区有编号,有顺序每一个切片都会有一个函数作业在上面用于对数据进行处理RDD和RDD之间存在依赖关系如果是K V 类型的RDD,会有一个分区器,默认是hash-partitioned如果是从HDFS中读取数据,会得到数据的最优位置(向Namenode请求元数据)。