PySpark单机模式(local)的环境搭建
本文介绍如何在Windows操作系统(以win11为例)上配置一个可以运行PySpark程序的开发环境,如存在任何问题或纰漏,欢迎指正和交流。
主要涉及到以下工具包的安装
安装包 | 版本 |
---|---|
JDK | jdk-8u281 |
Anaconda | Anaconda3-2020.11 |
Hadoop | 3.2.2 |
Hive | 3.1.1 1.22 (3.1.1为运行版本,1.22版本提供Windows系统下的运行工具) |
Mysql | 8 |
Mysql Connecter | 8.0.21 |
这里下载Hadoop时,清华镜像源没有提供3.2.2的版本,3.2.2版本的下载需要到apache官网下载
一、安装JDK
1.1 JDK的下载
https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html
打开链接,可以查看历史各个版本的Java,找到我们所需要的版本
初次在ORACLE下载资源会需要注册账号,可能会遇到网络问题,文章最后提供了所有工具包的安装包。如在登录时遇到表单请求错误,可尝试更换浏览器,推荐使用Edge,全程不需要网络代理。
1.2 安装到本地
双击准备好的文件,点击下一步,直到出现安装。
在这里根据自己的习惯更改安装路径(安装路径后续配置环境要用到),默认是安装在C盘下,注意路径不要有中文即可
等待下载后,会出现如下弹窗提示
这是要安装java的运行环境(jre),准备一个新的文件夹作为安装路径,路径还是不要出现中文,建议放在jdk安装路径的同一根路径下
设置好路径后,点击下一步继续安装,出现下图弹窗后,代表已经安装成功
1.3 配置环境变量
在电脑的开始搜索框中搜索环境变量,点击相关设置,或者找到桌面图标"此电脑",右键后点击"属性",再点击"环境变量"
点击后,会看到如下弹窗,我们点击环境变量
进来后,我们新建一个系统变量
变量名设置为 JAVA_HOME , 然后点击浏览目录,找到我们刚刚安装jdk的路径,作为变量值
然后再系统变量中,找到Path并点击
新建下面两个路径
%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin
最后点击确定,总共需要点击三个确定,直到退出系统属性那个页面。
1.4 测试安装是否成功
win+R打开运行窗口,输入cmd打开命令行,之后输入 java -version,出现下图版本信息则安装成功,也可以看到版本信息正是我们安装的281
二、安装Anaconda
2.1 Anaconda的下载
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
在清华大学开源软件镜像站找到我们需要的Anaconda版本
2.2 Anaconda的安装
开始安装,出现下图弹窗时,这里我选择 All Users
之后就是选择安装路径,根据自己的使用习惯设置就好
重点是接下来的两个选项
第一个框选,会将Anaconda3自动添加到系统的环境变量中,我们可以在Windows命令行(即win+R唤出的操作台)进行conda命令,如果没有添加,我们需要打开anaconda自己提供的命令行或navigator里进行相关操作,这里我没有勾选,如果对Anaconda后续还有持续使用的需求,建议在这里勾选或者后续再去手动添加环境变量
第二个框选,如果你的电脑之前已经安装过python,这里也不建议勾选
之后等待安装结束就好了
2.3 Anaconda的基本介绍
我们还是在开始搜索栏中,进行搜索,会看到Spyder、Anaconda Prompt、Anaconda Navigator、Jupyter Notebook。这里我后面还有括号是因为我的电脑安装过其他版本的Anaconda,如果你之前没有安装过Anaconda,这里是不会有额外的内容的。
其中Spyder、Jupyter Notebook 是Anaconda提供的开发环境。