Python安装spark

最新推荐文章于 2024-07-20 00:19:29 发布

奋斗的源

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量3.3k

点赞数 10

分类专栏： Apache基础知识文章标签： spark python scala

本文链接：https://blog.csdn.net/yuanfate/article/details/120706537

版权

文章目录

一.配置版本
二.配置环境
三.Pycharm配置spark
四.使用anconda中python环境配置spark

一.配置版本

Java JDK 1.8.0_111
Python 3.9.6
Spark 3.1.2
Hadoop 3.2.2

二.配置环境

1.配置JDK

从官网下载相应JDK的版本安装，并进行环境变量的配置
（1）在系统变量新建JAVA_HOME，根据你安装的位置填写变量值
在这里插入图片描述
（2）新建CLASSPATH
变量值：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar；（注意前面所需的符号）

（3）点击Path

在其中进行新建：%JAVA_HOME%\bin

（4）配置好后进行确定
（5）验证，打开cmd，输入java -version和javac进行验证

在这里插入图片描述

此上说明jdk环境变量配置成功

2.配置Spark

（1）下载安装：
Spark官网：spark-3.1.2-bin-hadoop3.2下载地址
在这里插入图片描述
（2）解压，配置环境

（3）点击Path，进行新建：%SPARK_HOME%\bin，并确认
（4）验证，cmd中输入pyspark

这里提醒我们要安装Hadoop

3.配置Hadoop

（1）下载：
Hadoop官网：Hadoop 3.2.2下载地址
在这里插入图片描述
（2）解压，配置环境

注意：解压文件后，bin文件夹中可能没有以下两个文件：

下载地址：https://github.com/cdarlint/winutils
配置环境变量CLASSPATH:%HADOOP_HOME%\bin\winutils.exe
（3）点击Path，进行新建：%HADOOP_HOME%\bin，并确认
（4）验证，cmd中输入pyspark
在这里插入图片描述
由上可以看出spark能运行成功，但是会出现如下警告：

WARN ProcfsMetricsGetter: Exception when trying to compute pagesize, as a result reporting of ProcessTree metrics is stopped

这里因为spark为3.x版本有相关改动，使用spar2.4.6版本不会出现这样的问题。
不改版本解决方式（因是警告，未尝试）：
方式一：

最低0.47元/天解锁文章

奋斗的源

关注

10
点赞
踩
43

收藏

觉得还不错? 一键收藏
1
评论
Python安装spark

文章目录一.配置版本二.配置环境1.配置JDK2.配置Spark三.配置Hadoop说明：　　本文使用anconda+pycharm安装spark一.配置版本Java JDK 1.8.0_111Python 3.9.6Spark 3.1.2Hadoop 3.2.2二.配置环境1.配置JDK从官网下载相应JDK的版本安装，并进行环境变量的配置（1）在系统变量新建JAVA_HOME，根据你安装的位置填写变量值（2）新建CLASSPATH变量值：.;%JAVA_HOME%\lib\
复制链接

扫一扫