02- RDD编程基础

最新推荐文章于 2022-07-19 19:02:02 发布

yu1069153913

最新推荐文章于 2022-07-19 19:02:02 发布

阅读量553

点赞数

分类专栏：分布式Spark笔记文章标签： spark

本文链接：https://blog.csdn.net/yu1069153913/article/details/107670575

版权

分布式Spark笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

RDD创建

从文件系统中加载数据创建RDD

spark采用**textFile()**方法来从文件系统中加载数据创建RDD

该方法吧文件的URI作为参数，这个URI可以是：

本地文件系统的地址
或者是分布式文件系统HDFS的地址
或者是Amazon S3的地址等等

(1)从本地文件系统加载数据创建RDD

例如scala代码：注意是3条斜杠

scala> val lines = sc.textFile("E:///1-研究生/01-课程/大数据分析应用与实践/运行代码的测试文件/textFile.txt")

运行结果：
在这里插入图片描述

原理示意图：

在这里插入图片描述

(2) 从分布式文件系统HDFS中加载数据

scala代码实现：以下3条语句完全等价，注意第一个是两条斜杠

scala> val lines = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
scala> val lines = sc.textFile("/user/hadoop/word.txt")
scala> val lines = sc.textFile("world.txt")

通过并行集合（数组）创建RDD

可以调用SparkContext的parallelize方法，在Driver中一个已经存在的集合（数组）上创建

原理：
在这里插入图片描述

scala代码实现：

scala> val array = Array(1,2,3,4,5)
scala> val rdd = sc.parallelize(array)

运行结果：
在这里插入图片描述

或者从列表中创建：

scala> val list= List(1,2,3,4,5)
scala> val rdd = sc.parallelize(list)

运行结果：
在这里插入图片描述

RDD操作

转换操作

常用RDD转换操作API：

filter(func)：筛选出满足函数func的元素，并返回一个新的数据集
map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集
flatMap(func)：与map()相似，但每个输入元素都可以映射到0或多个输出结果
groupByKey()：应用于（K,V）键值对的数据集时，返回一个新的（K,Iterable）形式的数据集
reduceByKey(func)：应用于（K,V）键值对的数据集时，返回一个新的（K,V）形式的数据集，其中每个值是将每个key传递到函数func中进行聚合后的结果