PySpark RDD 的使用

最新推荐文章于 2023-10-07 20:54:56 发布

wodlx_

最新推荐文章于 2023-10-07 20:54:56 发布

阅读量295

点赞数

分类专栏：大数据相关文章标签：大数据 spark hadoop

本文链接：https://blog.csdn.net/wodlx_/article/details/129541795

版权

PySpark RDD 的使用

文章目录

PySpark RDD 的使用

1.1 RDD的创建

Spark RDD的程序入口对象是SparkContext对象，使用RDD需要先创建一个SparkContext对象

from pyspark import SparkConf, SparkContext
import os

if __name__ == '__main__':
	# 设定路径（你的路径）
    os.environ['SPARK_HOME'] = '/opt/spark-3.2.3'
    os.environ["PYSPARK_PYTHON"] = "/usr/bin/python3"
    os.environ["PYSPARK_DRIVER_PYTHON"] = "/usr/bin/python3"
    os.environ["HADOOP_CONF_DIR"] = "/opt/hadoop-2.7.2"
    # 创建SparkContext对象（本地运行）
    conf = SparkConf().setAppName("Test").setMaster("local[*]")
    # 集群yarn运行
    # conf = SparkConf().setAppName("Test").setMaster("yarn")
    # 依赖文件同步提交
    # conf.set("spark.submit.pyFiles", 依赖文件或多个文件打包成的zip)
    sc = SparkContext(conf=conf)

随后我们可以选择两种RDD的创建方式

rdd = sc.parallelize(c: Iterable[T], numSlices: int | None = …) 本地对象转分布式RDD即手动创建
rdd = sc.textFile(name: str, minPartitions: int | None = …, use_unicode: bool = …) 读取文件或目录，本地、hdfs数据皆可

或 rdd = sc.wholeTextFiles(name: str, minPartitions: int | None = …, use_unicode: bool = …) 读取小文件或目录，本地、hdfs数据皆可

1.2 RDD算子

算子：分布式集合化对象的API叫做算子

Transformation算子返回值仍是一个RDD算子的，称之为转换算子
Action算子返回值不是RDD的就是Action算子

转换算子没有Action算子无法工作

1.3 常用Transformation算子

$\textcolor{CornflowerBlue}{map算子}$

功能：将RDD中的数据一条条按给定函数处理，返回RDD

例：words_with_one_rdd = words_rdd.map(lambda x: (x, 1)) # 将全是单词的RDD转换为（单词，1）的元组形式

$\textcolor{CornflowerBlue}{flatMap算子}$

功能：对RDD先执行map操作，然后进行解除嵌套操作

解除嵌套：[[1, 2, 3], [4, 5, 6]] - > [1, 2, 3, 4, 5, 6]

$\textcolor{CornflowerBlue}{reduceByKey算子}$

功能：针对KV型RDD，自动按照key分组，然后根据给定聚合逻辑。完成组内value的聚合

例：result_rdd = words_with_one_rdd.reduceByKey(lambda a, b: a + b) # 按照key分组，并加和key相同的

$\textcolor{CornflowerBlue}{mapValues算子}$

功能：针对二元元组RDD，只对其Value进行map操作

$\textcolor{CornflowerBlue}{groupBy算子}$

功能：将RDD的数据进行分组

groupyBy传入的函数的意思是按照谁来分组（返回谁即可）

例：result.groupBy(lambda t: t[0]) # 按照key来分组

后接rdd.map(lambda x: (x[0], list(x[1]))) 转换成[(key,list[]),]的形式

$\textcolor{CornflowerBlue}{Filter算子}$

功能：过滤出想要的数据，返回值是true的得以保留，false的被丢弃

$\textcolor{CornflowerBlue}{distinct算子}$

功能：对RDD数据进行去重，返回新RDD，一般当作无参

$\textcolor{CornflowerBlue}{union算子}$

功能：两个RDD合并成一个RDD返回，不去重

$\textcolor{CornflowerBlue}{join算子}$

功能：对两个RDD执行join操作（可实现SQL的内/外连接），按照二元元组key来连接

用法：

rdd.join(other_rdd) # 内连接
rdd.leftOuterJoin(other_rdd) # 左外
rdd.rightOuterJoin(other_rdd) # 右外

$\textcolor{CornflowerBlue}{intersection算子}$

功能：求两个RDD的交集，返回一个新的RDD

$\textcolor{CornflowerBlue}{glom算子}$

最低0.47元/天解锁文章

wodlx_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PySpark RDD 的使用

PySpark RDD 的使用文章目录PySpark RDD 的使用1.1 RDD的创建1.2 RDD算子1.3 常用Transformation算子map算子\textcolor{CornflowerBlue}{map算子}map算子flatMap算子\textcolor{CornflowerBlue}{flatMap算子}flatMap算子reduceByKey算子\textcolor{CornflowerBlue}{reduceByKey算子}reduceByKey算子mapValues算子\tex
复制链接

扫一扫