pycharm远程连接spark的初始安装以及问题

最新推荐文章于 2023-03-28 23:01:02 发布

吃再多糖也不长胖

最新推荐文章于 2023-03-28 23:01:02 发布

阅读量448

点赞数

分类专栏：问题

原文链接：https://heis.gitee.io/spark-exp03/

版权

问题专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1.安装软件

1.在本机 Windows 安装 Anaconda。
安装 PyCharm professional。
2.再虚拟机搭建spark

2.配置pycharm

1.新建项目
在这里插入图片描述
2.开菜单"Tools -> Deployment -> Configuration…”

3.新建一个通过 SFTP 把本地文件远程发布到虚拟机的设置。

4.输入虚拟机的地址，用户名，密码
5.测试连接成功后，保存并退出。

6.打开菜单"File -> Settings”
在这里插入图片描述
7.新增一个 Interpreter（Python解析器），这里我们需要设置虚拟机的 Python 解析器相关设定，这样我们通过 SFTP 从本地发送到虚拟机的Python 脚本才能知道使用哪个解析器进行解析运行

9.选择"ssh-interpreter”，配置虚拟机的地址，用户名和密码。
在这里插入图片描述

10.interpreter 需要选择Python的所在路径，这里设置为/usr/bin/python3。把本地项目路径D:/workspaces/workspace_python/spark-exp映射到虚拟机的路径/home/hadoop/spark-exp，如果虚拟机路径不存在请先创建。完成以后点击"Finish”。
在这里插入图片描述
11.在 spark-exp 项目下新建一个 wordcount2.py 文件。
12.wordcount2 输入以下代码

from pyspark import SparkContext
sc = SparkContext("spark://node0:7077", "WordCountApp")
rs = sc.textFile("/home/hadoop/你的学号/wc.txt").flatMap(lambda line: line.split(" ")).map(lambda w: (w, 1)).reduceByKey(lambda x, y: x+y).sortBy(lambda x:x[1], False).collect()
for e in rs:
    print(e)

把wordcount2.py 文件上传到虚拟机
在这里插入图片描述
14.编辑 python 脚本的运行设置模板。

15.新增一个 python 运行设置模板。

16.在环境变量中增加以下虚拟机的变量

SPARK_HOME    /opt/spark
PYTHONPATH    /opt/spark/python
JAVA_HOME     /opt/jdk8
HADOOP_HOME   /opt/hadoop
SCALA_HOME    /opt/scala2-12

在这里插入图片描述
17.
把"Script path"配置设置为本地 wordcount2.py 文件路径。“Python interpreter” 选择刚创建的解析器。

18.从模板创建一个运行设置

19.启动虚拟机的spark
20.运行 wordcount2 看是否能够得到结果

吃再多糖也不长胖

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
pycharm远程连接spark的初始安装以及问题

1.安装软件1.在本机 Windows 安装 Anaconda。安装 PyCharm professional。2.再虚拟机搭建spark2.配置pycharm1.新建项目2.开菜单"Tools -> Deployment -> Configuration…”3.新建一个通过 SFTP 把本地文件远程发布到虚拟机的设置。4.输入虚拟机的地址，用户名，密码5.测试...
复制链接

扫一扫