python安装pyspark及其依赖环境安装

zkkkkkkkkkkkkk

已于 2024-09-05 16:02:40 修改

阅读量528

点赞数 5

分类专栏： python pyspark 文章标签： python bigdata pyspark spark

于 2024-08-09 18:53:26 首次发布

本文链接：https://blog.csdn.net/zkkkkkkkkkkkkk/article/details/141066529

版权

python 同时被 2 个专栏收录

60 篇文章 5 订阅

订阅专栏

pyspark

1 篇文章 0 订阅

订阅专栏

一、安装pyspark

1.1、pip安装

# 镜像安装速度快
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple

1.2、conda新建虚拟环境安装

可以conda创建一个新的python虚拟环境（使用conda创建Python的虚拟环境（包括linux环境下）），在新环境中pip install pyspark安装。从0开始，安装后去对应虚拟环境下的site-packages里，可以直观的看到pyspark及其依赖包。

二、安装java依赖

pyspark的运行需要java的支持，所以你还需要有java jdk的安装包。下载路径：Java Downloads | Oracle ，下载你所需的版本的包。接着找一个盘，解压后，配置系统环境变量。

export JAVA_HOME=/xxx/xxx/jdk-22.0.2

export PATH=$JAVA_HOME/bin:$PATH

三、安装hadoop依赖

pyspark依赖hadoop运行环境，下载地址：Index of /dist/hadoop/common ，进去选择版本下载。解压后，配置环境变量。

export HADOOP_HOME=/xxx/xxx/hadoop-3.1.3

export PATH=$HADOOP_HOME/bin:$PATH

四、安装spark环境

貌似在python安装了pyspark包后就不需要再行安装spark环境了，不过保险起见，我都装了一下。下载地址：Downloads | Apache Spark ，同样解压后配置环境变量即可（配置完环境变量后，貌似pyspark调用的spark就不是pip安装在site-package里的spark环境）。

export SPARK_HOME=/xxx/xxx/spark-3.5.2-bin-hadoop3

export $PATH=$SPARK_HOME/bin:$PATH

五、验证

控制台分别输入以下命令验证是否安装成功：

java：

java --version

spark：

pyspark --version

hadoop：

hadoop version

六、运行

安装后即可在python运行pyspark

from pyspark import SparkContext,SparkConf

# sparkconf  对象
sconf = SparkConf().setMaster("local[*]").setAppName('my_spark_app')
# 通过sparkconf对象来创建spark对象
spark_obj = SparkContext(conf=sconf)


print(spark_obj.version)