1 yarn模式出错
pyspark on yarn 在pycharm上执行
出现以下问题:
解决方案:
在程序最前面添加如下程序
import os
os.environ["HADOOP_CONF_DIR"] = "/opt/module/hadoop-3.1.3/etc/hadoop"
2 yarn 模式配置
2.1 SparkSession
from pyspark.sql import SparkSession
import os
os.environ["HADOOP_CONF_DIR"] = "/opt/module/hadoop-3.1.3/etc/hadoop"
if __name__ == '__main__':
# 1)创建SparkSession对象
ss = SparkSession \
.builder \
.master("yarn") \
.appName("merge_yarn") \
.getOrCreate()
# 关闭资源
ss.stop()
2.2 SparkConf
# 1- 创建 spark的 sparkContext核心对象
from pyspark import SparkContext, SparkConf
import os
os.environ["HADOOP_CONF_DIR"] = "/opt/module/hadoop-3.1.3/etc/hadoop"
if __name__ == '__main__':
# 1)创建sparkContext对象
conf = SparkConf().setMaster("yarn").setAppName("wordCount_hdfs")
sc = SparkContext(conf=conf)
# 关闭资源
sc.stop()