一、在Windows上部署spark
下载的spark和hadoop版本要一致,推荐使用3版本
二、jdk版本
推荐jdk1.8版本
三、环境变量
SPARK_HOME
HADOOP_HOME
要在path里将java.exe的目录配置好
四、打开vscode
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("rdd-api")
sc = SparkContext(conf=conf)
没有报错,就意味着可以正常使用spark
五、winutils.exe文件
在钉钉群里,有一个插件的压缩包,压缩包里还有一个压缩包 将winutils.exe放在hadoop的bin目录里