目录
数据输出
python对象或文件 变成 RDD 这是数据输入
RDD 自己计算计算 ,再将RDD 在输出成python对象或文件
collect算子
reduce算子
# 导包
from pyspark import SparkConf, SparkContext
#Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
# 就是代码没有准确的找到python解释器
import os
os.environ["PYSPARK_PYTHON"] = "D:/APP/Anaconda/envs/teat1/python.exe"
# 创建SparkConf 类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
# 拿到执行环境入口对象
sc = SparkContext(conf=conf)
# 通过parallelize 方法将python对象加载到spark内,成为RDD对象
rdd = sc.parallelize([1, 2, 2, 2, 5]) # 列表
# reduce算子,对RDD进行两两聚合
num = rdd.reduce(lambda a, b: a+b)
print(num)
# 12