pycharm远程连接spark的初始安装以及问题

1.安装软件

1.在本机 Windows 安装 Anaconda。
安装 PyCharm professional。
2.再虚拟机搭建spark

2.配置pycharm

1.新建项目
在这里插入图片描述
2.开菜单"Tools -> Deployment -> Configuration…”
在这里插入图片描述
3.新建一个通过 SFTP 把本地文件远程发布到虚拟机的设置。
在这里插入图片描述
4.输入虚拟机的地址,用户名,密码在这里插入图片描述
5.测试连接成功后,保存并退出。
在这里插入图片描述
6.打开菜单"File -> Settings”
在这里插入图片描述
7.新增一个 Interpreter(Python解析器),这里我们需要设置虚拟机的 Python 解析器相关设定,这样我们通过 SFTP 从本地发送到虚拟机的Python 脚本才能知道使用哪个解析器进行解析运行
在这里插入图片描述
在这里插入图片描述
9.选择"ssh-interpreter”,配置虚拟机的地址,用户名和密码。
在这里插入图片描述
在这里插入图片描述
10.interpreter 需要选择Python的所在路径,这里设置为/usr/bin/python3。把本地项目路径D:/workspaces/workspace_python/spark-exp映射到虚拟机的路径/home/hadoop/spark-exp,如果虚拟机路径不存在请先创建。完成以后点击"Finish”。
在这里插入图片描述
11.在 spark-exp 项目下新建一个 wordcount2.py 文件。在这里插入图片描述
12.wordcount2 输入以下代码

from pyspark import SparkContext
sc = SparkContext("spark://node0:7077", "WordCountApp")
rs = sc.textFile("/home/hadoop/你的学号/wc.txt").flatMap(lambda line: line.split(" ")).map(lambda w: (w, 1)).reduceByKey(lambda x, y: x+y).sortBy(lambda x:x[1], False).collect()
for e in rs:
    print(e)

把wordcount2.py 文件上传到虚拟机
在这里插入图片描述
14.编辑 python 脚本的运行设置模板。
在这里插入图片描述
15.新增一个 python 运行设置模板。
在这里插入图片描述
16.在环境变量中增加以下虚拟机的变量

SPARK_HOME    /opt/spark
PYTHONPATH    /opt/spark/python
JAVA_HOME     /opt/jdk8
HADOOP_HOME   /opt/hadoop
SCALA_HOME    /opt/scala2-12

在这里插入图片描述
17.
把"Script path"配置设置为本地 wordcount2.py 文件路径。“Python interpreter” 选择刚创建的解析器。
在这里插入图片描述
18.从模板创建一个运行设置
在这里插入图片描述
19.启动虚拟机的spark
20.运行 wordcount2 看是否能够得到结果
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值