Spark算子 - Python

念婷

于 2024-04-22 10:50:57 发布

阅读量593

点赞数 24

分类专栏：云计算应用开发文章标签： spark python 大数据

本文链接：https://blog.csdn.net/weixin_51439828/article/details/138066433

版权

云计算应用开发专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Transformation - map

任务描述

本关任务：使用Spark的 map 算子按照相关需求完成转换操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求：使用 map 算子，将rdd的数据 (1, 2, 3, 4, 5) 按照下面的规则进行转换操作，规则如下:

偶数转换成该数的平方；
奇数转换成该数的立方。

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

#********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个1到5的列表List

data = [1, 2, 3, 4, 5]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素。

print(rdd.collect())

"""

使用 map 算子，将 rdd 的数据 (1, 2, 3, 4, 5) 按照下面的规则进行转换操作，规则如下:

需求：

偶数转换成该数的平方

奇数转换成该数的立方

"""

# 5.使用 map 算子完成以上需求

rdd = rdd.map(lambda x: x ** 2 if x % 2 == 0 else x ** 3)

# 6.使用rdd.collect() 收集完成 map 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

#********** End **********#

Transformation - mapPartitions

任务描述

本关任务：使用Spark的mapPartitions算子按照相关需求完成转换操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在 Begin - End 区域内进行代码补充，具体任务如下：

需求：使用 mapPartitions 算子，将 rdd 的数据 ("dog", "salmon", "salmon", "rat", "elephant") 按照下面的规则进行转换操作，规则如下:

将字符串与该字符串的长度组合成一个元组，例如：

dog --> (dog,3)
salmon --> (salmon,6)

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

#********** Begin **********#

#********** End **********#

if __name__ == "__main__":

#********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2. 一个内容为（"dog", "salmon", "salmon", "rat", "elephant"）的列表List

data = ["dog", "salmon", "salmon", "rat", "elephant"]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素。

print(rdd.collect())

"""

使用 mapPartitions 算子，将 rdd 的数据 ("dog", "salmon", "salmon", "rat", "elephant") 按照下面的规则进行转换操作，规则如下:

需求：

将字符串与该字符串的长度组合成一个元组，例如：

dog --> (dog,3)

salmon --> (salmon,6)

"""

# 5.使用 mapPartitions 算子完成以上需求

rdd = rdd.mapPartitions(lambda partition: [(word, len(word)) for word in partition])

# 6.使用rdd.collect() 收集完成 mapPartitions 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

#********** End **********#

Transformation - filter

任务描述

本关任务：使用Spark的filter算子按照相关需求完成转换操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求1：使用 filter 算子，将 rdd 中的数据 (1, 2, 3, 4, 5, 6, 7, 8) 按照以下规则进行过滤，规则如下:

过滤掉rdd中的所有奇数。

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

#********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个1到8的列表List

data = [1, 2, 3, 4, 5, 6, 7, 8]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素。

print(rdd.collect())

"""

使用 filter 算子，将 rdd 的数据 (1, 2, 3, 4, 5, 6, 7, 8) 按照下面的规则进行转换操作，规则如下:

需求：

过滤掉rdd中的奇数

"""

# 5.使用 filter 算子完成以上需求

rdd = rdd.filter(lambda x: x % 2 == 0)

# 6.使用rdd.collect() 收集完成 filter 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

#********** End **********#

Transformation - flatMap

任务描述

本关任务：使用Spark的flatMap算子按照相关需求完成转换操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求：使用 flatMap 算子，将rdd的数据 ([1, 2, 3], [4, 5, 6], [7, 8, 9]) 按照下面的规则进行转换操作，规则如下:

合并RDD的元素，例如：
1. ([1,2,3],[4,5,6]) --> (1,2,3,4,5,6)
2. ([2,3],[4,5],[6]) --> (1,2,3,4,5,6)

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

#********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个[[1, 2, 3], [4, 5, 6], [7, 8, 9]] 的列表List

data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素。

print(rdd.collect())

"""

使用 flatMap 算子，将 rdd 的数据 ([1, 2, 3], [4, 5, 6], [7, 8, 9]) 按照下面的规则进行转换操作，规则如下:

需求：

合并RDD的元素，例如：

([1,2,3],[4,5,6]) --> (1,2,3,4,5,6)

([2,3],[4,5],[6]) --> (1,2,3,4,5,6)

"""

# 5.使用 filter 算子完成以上需求

rdd = rdd.flatMap(lambda x: x)

# 6.使用rdd.collect() 收集完成 filter 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

#********** End **********#

Transformation - distinct

任务描述

本关任务：使用 Spark 的 distinct 算子按照需求完成相关操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求：使用 distinct 算子，将 rdd 中的数据进行去重。

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

#********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个内容为（1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1）的列表List

data = [1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素

print(rdd.collect())

"""

使用 distinct 算子，将 rdd 的数据 (1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1) 按照下面的规则进行转换操作，规则如下:

需求：

元素去重，例如：

1,2,3,3,2,1 --> 1,2,3

1,1,1,1, --> 1

"""

# 5.使用 distinct 算子完成以上需求

rdd = rdd.distinct()

# 6.使用rdd.collect() 收集完成 distinct 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

#********** End **********#

Transformation - sortBy

任务描述

本关任务：使用 Spark 的 SortBy 算子按照相关需求完成相关操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求：使用 sortBy 算子，将 rdd 中的数据进行排序（升序）。

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

# ********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个内容为（1, 3, 5, 7, 9, 8, 6, 4, 2）的列表List

data = [1, 3, 5, 7, 9, 8, 6, 4, 2]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素

print(rdd.collect())

"""

使用 sortBy 算子，将 rdd 的数据 (1, 3, 5, 7, 9, 8, 6, 4, 2) 按照下面的规则进行转换操作，规则如下:

需求：

元素排序，例如：

5,4,3,1,2 --> 1,2,3,4,5

"""

# 5.使用 sortBy 算子完成以上需求

rdd = rdd.sortBy(lambda x: x)

# 6.使用rdd.collect() 收集完成 sortBy 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

#********** End **********#

Transformation - sortByKey

任务描述

本关任务：使用 Spark 的 sortByKey 算子按照相关需求完成相关操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求：使用 sortBy 算子，将 rdd 中的数据进行排序（升序）。

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

# ********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个内容为[(B',1),('A',2),('C',3)]的列表List

data = [('B', 1), ('A', 2), ('C', 3)]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素

print(rdd.collect())

"""

使用 sortByKey 算子，将 rdd 的数据 ('B', 1), ('A', 2), ('C', 3) 按照下面的规则进行转换操作，规则如下:

需求：

元素排序，例如：

[(3,3),(2,2),(1,1)] --> [(1,1),(2,2),(3,3)]

"""

# 5.使用 sortByKey 算子完成以上需求

rdd = rdd.sortByKey()

# 6.使用rdd.collect() 收集完成 sortByKey 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

# ********** End **********#

Transformation - mapValues

任务描述

本关任务：使用Spark 的 mapValues 算子按照相关需求完成转换操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求：使用mapValues算子，将rdd的数据 ("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5) 按照下面的规则进行转换操作，规则如下:

偶数转换成该数的平方
奇数转换成该数的立方

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

# ********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个内容为[("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5)]的列表List

data = [("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5)]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素

print(rdd.collect())

"""

使用 mapValues 算子，将 rdd 的数据 ("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5) 按照下面的规则进行转换操作，规则如下:

需求：

元素（key,value）的value进行以下操作：

偶数转换成该数的平方

奇数转换成该数的立方

"""

# 5.使用 mapValues 算子完成以上需求

rdd = rdd.mapValues(lambda x: x ** 2 if x % 2 == 0 else x ** 3)

# 6.使用rdd.collect() 收集完成 mapValues 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

# ********** End **********#

Transformations - reduceByKey

任务描述

本关任务：使用 Spark 的 reduceByKey 算子按照相关需求完成转换操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求：使用 reduceByKey 算子，将 rdd(key-value类型) 中的数据进行值累加。

例如：

("soma",4), ("soma",1)， ("soma",2） -> ("soma",7)

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

# ********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个内容为[("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)]的列表List

data = [("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.使用rdd.collect() 收集 rdd 的元素

print(rdd.collect())

"""

使用 reduceByKey 算子，将 rdd 的数据[("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)] 按照下面的规则进行转换操作，规则如下:

需求：

元素（key-value）的value累加操作，例如：

(1,1),(1,1),(1,2) --> (1,4)

(1,1),(1,1),(2,2),(2,2) --> (1,2),(2,4)

"""

# 5.使用 reduceByKey 算子完成以上需求

rdd = rdd.reduceByKey(lambda x, y: x + y)

# 6.使用rdd.collect() 收集完成 reduceByKey 转换的元素

print(rdd.collect())

# 7.停止 SparkContext

sc.stop()

# ********** End **********#

Actions - 常用算子

任务描述

本关任务：使用Spark 的 Action 常用算子按照相关需求完成相关操作。

编程要求

请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，具体任务如下：

需求1：使用 count 算子，统计下 rdd 中元素的个数；

需求2：使用 first 算子，获取 rdd 首个元素；

需求3：使用 take 算子，获取 rdd 前三个元素；

需求4：使用 reduce 算子，进行累加操作；

需求5：使用 collect 算子，收集所有元素。

# -*- coding: UTF-8 -*-

from pyspark import SparkContext

if __name__ == "__main__":

# ********** Begin **********#

# 1.初始化 SparkContext，该对象是 Spark 程序的入口

sc = SparkContext("local", "Simple App")

# 2.创建一个内容为[1, 3, 5, 7, 9, 8, 6, 4, 2]的列表List

data = [1, 3, 5, 7, 9, 8, 6, 4, 2]

# 3.通过 SparkContext 并行化创建 rdd

rdd = sc.parallelize(data)

# 4.收集rdd的所有元素并print输出

print(rdd.collect())

# 5.统计rdd的元素个数并print输出

print(rdd.count())

# 6.获取rdd的第一个元素并print输出

print(rdd.first())

# 7.获取rdd的前3个元素并print输出

print(rdd.take(3))

# 8.聚合rdd的所有元素并print输出

print(rdd.reduce(lambda x, y: x + y))

# 9.停止 SparkContext

sc.stop()

# ********** End **********#

念婷

关注

24
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Spark算子 - Python

2.创建一个内容为[("python", 1), ("scala", 2), ("python", 3), ("python", 4), ("java", 5)]的列表List。# 2.创建一个内容为[("1", 1), ("2", 2), ("3", 3), ("4", 4), ("5", 5)]的列表List。偶数转换成该数的平方。奇数转换成该数的立方。# 2.创建一个内容为（1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1）的列表List。
复制链接

扫一扫