pyspark编码整理（一）-windows上编码基础准备

本文链接：https://blog.csdn.net/yrsg666/article/details/100112948

当我们需要进行pyspark编码的时候首先是需要安装一些编译环境以及相应依赖包的一些安装与配置，pyspark编码方面，我们需要再我们的windows上进行如下的配置：
1、python版本，这个是运行python的基础，就像java中的jdk,我们使用的是python3.6.0，python3.6.0的安装可以有两种方式，第一种方式是直接安装纯净版的python3.6.0；第二种方式是安装与python3.6.0相对应的Anaconda，Anaconda的好处是除了安装对应版本的python之外还附带了很多第三方依赖包，一些比较常见的依赖基本可以满足，可以省去安装完纯净python版本之后还要手动去安装运行所需要的依赖，关于具体对应关系网上也有很多例如：https://blog.csdn.net/zzqhello2018/article/details/90896852，确认好对应关系直接去官网下载然后一路下一步安装即可，对应算法人员要求的python3.6.0版本我安装的Anaconda版本是Anaconda3-4.3.1-Windows-x86_64版本。
2、py4j安装，为什要安装py4j了解了一下，spark是由scala语言编写的，pyspark并没有像豆瓣开源的dpark用python复刻了spark，而只是提供了一层可以与原生JVM通信的python API，Py4J就是python与JVM之间的这座桥梁。因此需要安装，如果不安装就会报错：ImportError: No module named py4j.java_gateway。我们在windows上安装py4j。在cmd命令行模式下使用pip安装方式注意研发云使用代理。 pip install py4j -i https://pypi.tuna.tsinghua.edu.cn.simple --proxy=prosrv.nuctech.com:3128
3、spark与hadoop的依赖包，首先是去官网下载各自对应spark2.2.1以及hadoop2.6.5版本的依赖包，具体下载分别去spark(https://archive.apache.org/dist/spark/spark-2.2.1/)以及hadoop(https://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/)官网下载，下载的时候需要注意与生产环境中的版本要保持一致所以我们下载如下图：

下载解压后放到windows本地然后配置环境变量即可如下图所示，本地存放

环境变量配置方式如下：计算机右键-->选择‘属性’-->选择‘高级系统设置’-->选择‘环境变量’-->选择系统变量框里面的‘新建’-->仿照下两张图添加hadoop、spark的环境变量：

添加完hadoop的确定，再点新建再添加spark的，注意变量名为固定值不可变，变量值可以根据实际存放路径选择，注意层级一定要到版本号目录层级。
到此为止环境准备完毕。