摸鱼大数据——Spark基础——Spark集群Standalone模式+PyCharm远程开发配置

Spark集群模式架构

Spark集群指的是Standalone的模式。但是该模式在实际工作中使用比较少,所以了解即可!!!

Standalone的模式是Spark自身进行资源和任务的管理,不借助任何的第三方的工具。

  • Master主角色(主节点)的主要作用:

    1- 管理众多的Worker从角色 2- 负责资源管理和任务的分配

    3- 将Driver进程分配给到Worker进行运行

    4- 接收Spark任务的请求

  • Worker从角色(从节点)的主要作用:

    1- Worker负责具体任务的执行

    2- Worker会向Master汇报心跳、任务运行的状态

    3- Driver随机选择一个Worker从角色进行启动和运行

    4- 负责执行Driver进程分配过来的任务

PyCharm远程开发配置

1、背景说明

    远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码 都会自动上传到远端服务器中, 在执行代码的时候, 相当于是直接在远端环境上进行执行操作
    注意: 本次这里配置远端环境,指的连接虚拟机中虚拟环境。可以配置为Base环境,也可以配置为其他的虚拟环境, 但是目前建议配置为Base环境,因为Base环境自带python包更全面一些

2、清理远程环境

在远程环境出错的时候会用到。一般一个远程主机推荐只配置一个

1.点击Settings

2.进入Interpreter

3.删除远程环境

4.删除SSH

到此,远程环境就删除成功了!

3、连接远程环境

1.点击Close Project

2.点击New Project

4.项目路径设置

5.SSH配置

6.选择python3解释器在远程环境的位置

7.配置远程目录

用来存放同步的代码

8.配置好以后,检查pyspark的版本是否是3.1.2

9.自动上传本地项目代码到远程

如果代码没有被自动上传到远程服务器,那么我们可以手动上传

4、重新连接到远程环境

1.点击Settings

2.找到Interpreter

3.新增远程环境

4.SSH配置

5.选择python3解释器在远程环境的位置

如果使用的是其他虚拟环境,通过如下截图进行配置:

6.配置远程目录

用来存放同步的代码

7.配置好以后,检查pyspark的版本是否是3.1.2

8.自动上传本地项目代码到远程

如果代码没有被自动上传到远程服务器,那么我们可以手动上传

5、补充:切换Python解释器后代码报错

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

困了就倒头睡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值