pycharm连接spark

1.解压Hadoop,解压到任意盘,路径不要带中文路径 

 进入保存后的bin目录,查看,是否解压成功

2.解压spark,到任意位置,路径不要带有中文

 3. 打开pycharm,把Hadoop,spark环境变量配置到pycharm中。

3.1新建项目

 

 3.2在项目中创建一个python文件

 

 3.3把Hadoop_home,python_home,pythonpath添加到Pycharm中.

 

 

1.HADOOP_HOME

2.SPARK_HOME

3.PYTHONPATH

4.注意!!!

PYTHONPATH路径要添加到D:\spark\spark-2.4.6-bin-hadoop2.7\python\lib\py4j-0.10.7-src.zip下

 3.4 检查是否有以下软件包

3.4.1 如果没有请按照以下教程下载,后期需要

 3.4.2安装py4j

 3.4.3安装pyspark推荐2.4.6版本

 

 3.4.4安装pip

3.5安装findspark

 4.把winutils.exe插件放到Hadoop解压后的/bin目录下面

 5.把以下代码,复制到4.2步骤中,新建的python文件中

#添加此代码
import findspark
findspark.init()
#在spark前,添加此代码
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("WordCount").getOrCreate()
spark.sparkContext.textFile("file:///D:/Hadoop/hadoop-2.7.7/README.txt")\
        .flatMap(lambda x: x.split(' '))\
        .map(lambda x: (x, 1))\
        .reduceByKey(lambda x, y: x + y)\
        .foreach(print)

5.1必须要有这句话在spark前面!!!

 6.测试

 

出现以上内容,表示pycharm连接spark成功

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值