from pyspark import SparkConf, SparkContext
import os
os.environ["PYSPARK_PYTHON"]="D:/python_set/py_run/python.exe"
# 得到conf对象
conf=SparkConf().setMaster("local[*]").setAppName("run_set")
# 通过conf对象,得到SparkContext对象
sc = SparkContext(conf=conf)
# 读取文件,得到rdd对象
rdd = sc.textFile("D:/py_things.txt")
# 将所有单词存入一个列表
rdd = rdd.flatMap(lambda x: x.split(" "))
# 将每个元素变为(元素,1)的形式
rdd = rdd.map(lambda word: (word, 1))
# 分组并求和
rdd = rdd.reduceByKey(lambda a, b: a+b)
# 打印结果
print(rdd.collect())
sc.stop()