目录
一、安装pyspark
1.1、pip安装
# 镜像安装速度快
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple
1.2、conda新建虚拟环境安装
可以conda创建一个新的python虚拟环境(使用conda创建Python的虚拟环境(包括linux环境下)),在新环境中pip install pyspark安装。从0开始,安装后去对应虚拟环境下的site-packages里,可以直观的看到pyspark及其依赖包。
二、安装java依赖
pyspark的运行需要java的支持,所以你还需要有java jdk的安装包。下载路径:Java Downloads | Oracle ,下载你所需的版本的包。接着找一个盘,解压后,配置系统环境变量。
export JAVA_HOME=/xxx/xxx/jdk-22.0.2
export PATH=$JAVA_HOME/bin:$PATH
三、安装hadoop依赖
pyspark依赖hadoop运行环境,下载地址:Index of /dist/hadoop/common ,进去选择版本下载。解压后,配置环境变量。
export HADOOP_HOME=/xxx/xxx/hadoop-3.1.3
export PATH=$HADOOP_HOME/bin:$PATH
四、安装spark环境
貌似在python安装了pyspark包后就不需要再行安装spark环境了,不过保险起见,我都装了一下。下载地址:Downloads | Apache Spark ,同样解压后配置环境变量即可(配置完环境变量后,貌似pyspark调用的spark就不是pip安装在site-package里的spark环境)。
export SPARK_HOME=/xxx/xxx/spark-3.5.2-bin-hadoop3
export $PATH=$SPARK_HOME/bin:$PATH
五、验证
控制台分别输入以下命令验证是否安装成功:
java:
java --version
spark:
pyspark --version
hadoop:
hadoop version
六、运行
安装后即可在python运行pyspark
from pyspark import SparkContext,SparkConf
# sparkconf 对象
sconf = SparkConf().setMaster("local[*]").setAppName('my_spark_app')
# 通过sparkconf对象来创建spark对象
spark_obj = SparkContext(conf=sconf)
print(spark_obj.version)