python安装pyspark及其依赖环境安装

目录

一、安装pyspark

        1.1、pip安装

        1.2、conda新建虚拟环境安装

二、安装java依赖

三、安装hadoop依赖

四、安装spark环境

五、验证

六、运行


一、安装pyspark

        1.1、pip安装

# 镜像安装速度快
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple

        1.2、conda新建虚拟环境安装

                可以conda创建一个新的python虚拟环境(使用conda创建Python的虚拟环境(包括linux环境下)),在新环境中pip install pyspark安装。从0开始,安装后去对应虚拟环境下的site-packages里,可以直观的看到pyspark及其依赖包。

        

二、安装java依赖

        pyspark的运行需要java的支持,所以你还需要有java jdk的安装包。下载路径:Java Downloads | Oracle ,下载你所需的版本的包。接着找一个盘,解压后,配置系统环境变量。

        export JAVA_HOME=/xxx/xxx/jdk-22.0.2

        export PATH=$JAVA_HOME/bin:$PATH

三、安装hadoop依赖

        pyspark依赖hadoop运行环境,下载地址:Index of /dist/hadoop/common ,进去选择版本下载。解压后,配置环境变量。

        export HADOOP_HOME=/xxx/xxx/hadoop-3.1.3

        export PATH=$HADOOP_HOME/bin:$PATH

四、安装spark环境

貌似在python安装了pyspark包后就不需要再行安装spark环境了,不过保险起见,我都装了一下。下载地址:Downloads | Apache Spark ,同样解压后配置环境变量即可(配置完环境变量后,貌似pyspark调用的spark就不是pip安装在site-package里的spark环境)。

        export SPARK_HOME=/xxx/xxx/spark-3.5.2-bin-hadoop3

        export $PATH=$SPARK_HOME/bin:$PATH

五、验证

        控制台分别输入以下命令验证是否安装成功:

java:

        java --version

spark:

        pyspark --version

hadoop:

        hadoop version

六、运行

        安装后即可在python运行pyspark

from pyspark import SparkContext,SparkConf

# sparkconf  对象
sconf = SparkConf().setMaster("local[*]").setAppName('my_spark_app')
# 通过sparkconf对象来创建spark对象
spark_obj = SparkContext(conf=sconf)


print(spark_obj.version)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值