Windows下pyspark的环境搭建

最新推荐文章于 2024-06-30 07:15:00 发布

zengyunda

最新推荐文章于 2024-06-30 07:15:00 发布

阅读量910

点赞数

分类专栏： pyspark 文章标签： spark 大数据 hadoop python pycharm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengyunda/article/details/105461357

版权

pyspark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

写在前面的话~

由于工作中的数据挖掘从sklearn转换到集群了，要开始pyspark了，但是发现市面上无论是pyspark的书籍还是文章，相对sklearn来说，还是太少了，大部分问题只能求助pyspark中的api，所以想记录下平时学习与使用pyspark中的问题。

好了，要想使用pyspark，还是先把本地的本机环境先搭建起来~

Spark需要由JDK，Scala和Hadoop环境的支持，而PySpark则是利用Spark支持Python的特性而将其当作Python的一个包调用，利用PySpark中的Py4j库,我们可以通过Python语言操作RDDs，在使用PySpark的时候，我们需要先完成以下组件的安装

1、Python（推荐使用Anaconda+PyCharm）
2、JDK（本文中使用JDK1.8）
3、Scala（Scala-2.12.8）
4、Spark（Spark 3.0-preview for hadoop-2.7）
5、Hadoop（Hadoop 2.7）
6、winutils.exe
7、Python相关库的安装和设置

1、Python（推荐使用Anaconda+PyCharm）

Python的那种建议使用Anaconda，里面集成很很多常用的包，而且安装后自带的jupyter notebook也挺好用的；

下载路径：

https://www.anaconda.com/www.anaconda.com

本人安装的是Python3，所以下载也是Python3.7的版本，当然了，我自己电脑是一个更早的版本了，这里只是给大家贴个图哈

安装过程中在这步条件环境变量，其他的一直下一步即可：

pycharm适合做项目的时候用，个人感觉还是非常好用的，当然笨重了点，打开比较慢，另外也很吃内存，直接下载个社区版就可满足使用了

https://www.jetbrains.com/pycharm/download/www.jetbrains.com

2、JDK（本文中使用JDK1.8）

本文使用的是JDK1.8，各位根据自己需要的版本下载即可

https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.htmlwww.oracle.com

安装完成以后，配置环境变量。配置环境变量的方法为电脑[右键]——>属性——>环境变量，编辑环境变量

配置Java环境变量主要有三个：

JAVA_HOME: E:\Program Files\Java\jdk1.8.0_144\

CLASS_PATH: E:\Program Files\Java\jdk1.8.0_144\lib

Path: E:\Program Files\Java\jdk1.8.0_144\bin

其中Java_Home变量则为Java安装路径，CLASS_PATH可以看成Java安装目录下lib文件目录，Path一般为系统自带变量，修改时直接新增Java安装目录下的bin目录。

一般来讲bin目录下大多是可执行文件，XX_HOME指程序安装目录（下面Scala、Hadoop、spark均需要执行增加Home变量，和bin相关操作）。

Java如果安装成功，则在cmd窗口中分别输入java 和javac，如果均出现如下图所示结果，则表示安装Java成功

3、Scala（Scala-2.12.8）

All Available Versionswww.scala-lang.org

从上面获取对应Spark版本的Scala安装包，我选择了2.12.8版本，windows下直接下载.msi文件安装即可，然后配置环境变量配置好

安装好后运行cmd命令提示符，输入Scala后，如果能够正常进入到Scala的交互命令环境则表明安装成功。

4、Spark（Spark 2.1-preview for hadoop-2.7）

spark下载地址在

Downloads | Apache Sparkspark.apache.org

，选择合适的版本安装即可。

spark_home和bin环境变量配置需要设置，和Scala的配置步骤是一样的，就2个地方需要设置，上一张Scala的截图已经有spark的

5、Hadoop（Hadoop 2.7）

由于spark是基于hadoop建立的，所以需要下载Hadoop，这里选择hadoop 2.7，然后下载后放到本地目录，和之前一样，设置相关的2个地方的环境变量即可！

6、winutils.exe

winutil.exe下载位置在

https://github.com/steveloughran/winutilsgithub.com

其中根据自己的hadoop版本选择对应的winutil.exe文件。这里选择的是hadoop-2.7.1/bin中的winutil.exe文件。

7、Python相关库的安装和设置

1)，将spark所在目录下（比如我的是E:\spark\spark-2.1.0-bin-hadoop2.7\python）的pyspark文件夹拷贝到python文件夹下（我的是E:\Anaconda2\Lib\site-packages）

这里请根据自己情况自行调整！

2)，安装py4j库

一般的在cmd命令行下 pip install py4j 就可以

3) 修改权限

将winutils.exe文件放到Hadoop的bin目录下（我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin），然后以管理员的身份打开cmd，然后通过cd命令进入到Hadoop的bin目录下，然后执行以下命令：

winutils.exe chmod 777 c:\tmp\Hive

4)验证pyspark启动

到此所有的配置工作全部完成，最后再在cmd中输入pyspark，查看反馈。如果出现下面界面，则恭喜你，pyspark安装配置成功。

大功告成啦~~~接下来就开始进入pyspark吧

参考文章：

windows10上配置pyspark工作环境_运维_进击的强强-CSDN博客blog.csdn.net

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Windows下pyspark的环境搭建

写在前面的话~由于工作中的数据挖掘从sklearn转换到集群了，要开始pyspark了，但是发现市面上无论是pyspark的书籍还是文章，相对sklearn来说，还是太少了，大部分问题只能求助pyspark中的api，所以想记录下平时学习与使用pyspark中的问题。好了，要想使用pyspark，还是先把本地的本机环境先搭建起来~Spark需要由JDK，Scala和Hadoop环境的支...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。