PySpark单机模式（local）的环境搭建

最新推荐文章于 2025-04-06 23:32:19 发布

置顶

梅南雪

最新推荐文章于 2025-04-06 23:32:19 发布

阅读量2k

点赞数 22

文章标签： sql hadoop hive mysql spark

本文链接：https://blog.csdn.net/z2141830440/article/details/142072455

版权

PySpark单机模式（local）的环境搭建

本文介绍如何在Windows操作系统（以win11为例）上配置一个可以运行PySpark程序的开发环境，如存在任何问题或纰漏，欢迎指正和交流。

主要涉及到以下工具包的安装

安装包	版本
JDK	jdk-8u281
Anaconda	Anaconda3-2020.11
Hadoop	3.2.2
Hive	3.1.1 1.22 (3.1.1为运行版本，1.22版本提供Windows系统下的运行工具)
Mysql	8
Mysql Connecter	8.0.21

这里下载Hadoop时，清华镜像源没有提供3.2.2的版本，3.2.2版本的下载需要到apache官网下载

一、安装JDK

1.1 JDK的下载

https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html

打开链接，可以查看历史各个版本的Java，找到我们所需要的版本

在这里插入图片描述

初次在ORACLE下载资源会需要注册账号，可能会遇到网络问题，文章最后提供了所有工具包的安装包。如在登录时遇到表单请求错误，可尝试更换浏览器，推荐使用Edge，全程不需要网络代理。

1.2 安装到本地

双击准备好的文件，点击下一步，直到出现安装。
在这里插入图片描述

在这里根据自己的习惯更改安装路径（安装路径后续配置环境要用到），默认是安装在C盘下，注意路径不要有中文即可

等待下载后，会出现如下弹窗提示
在这里插入图片描述

这是要安装java的运行环境（jre），准备一个新的文件夹作为安装路径，路径还是不要出现中文，建议放在jdk安装路径的同一根路径下
在这里插入图片描述

设置好路径后，点击下一步继续安装，出现下图弹窗后，代表已经安装成功

在这里插入图片描述

1.3 配置环境变量

在电脑的开始搜索框中搜索环境变量，点击相关设置，或者找到桌面图标"此电脑"，右键后点击"属性"，再点击"环境变量"

在这里插入图片描述
点击后，会看到如下弹窗，我们点击环境变量

在这里插入图片描述

进来后，我们新建一个系统变量

在这里插入图片描述

变量名设置为 JAVA_HOME ，然后点击浏览目录，找到我们刚刚安装jdk的路径，作为变量值

在这里插入图片描述

然后再系统变量中，找到Path并点击

在这里插入图片描述

新建下面两个路径

%JAVA_HOME%\bin

%JAVA_HOME%\jre\bin

在这里插入图片描述

最后点击确定，总共需要点击三个确定，直到退出系统属性那个页面。

1.4 测试安装是否成功

win+R打开运行窗口，输入cmd打开命令行，之后输入 java -version，出现下图版本信息则安装成功，也可以看到版本信息正是我们安装的281

在这里插入图片描述

二、安装Anaconda

2.1 Anaconda的下载

https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

在清华大学开源软件镜像站找到我们需要的Anaconda版本
在这里插入图片描述

2.2 Anaconda的安装

开始安装，出现下图弹窗时，这里我选择 All Users

在这里插入图片描述

之后就是选择安装路径，根据自己的使用习惯设置就好

在这里插入图片描述

重点是接下来的两个选项

在这里插入图片描述

第一个框选，会将Anaconda3自动添加到系统的环境变量中，我们可以在Windows命令行（即win+R唤出的操作台）进行conda命令，如果没有添加，我们需要打开anaconda自己提供的命令行或navigator里进行相关操作，这里我没有勾选，如果对Anaconda后续还有持续使用的需求，建议在这里勾选或者后续再去手动添加环境变量

第二个框选，如果你的电脑之前已经安装过python，这里也不建议勾选

之后等待安装结束就好了
在这里插入图片描述