Spark集群模式架构
Spark集群指的是Standalone的模式。但是该模式在实际工作中使用比较少,所以了解即可!!!
Standalone的模式是Spark自身进行资源和任务的管理,不借助任何的第三方的工具。
-
Master主角色(主节点)的主要作用:
1- 管理众多的Worker从角色 2- 负责资源管理和任务的分配
3- 将Driver进程分配给到Worker进行运行
4- 接收Spark任务的请求
-
Worker从角色(从节点)的主要作用:
1- Worker负责具体任务的执行
2- Worker会向Master汇报心跳、任务运行的状态
3- Driver随机选择一个Worker从角色进行启动和运行
4- 负责执行Driver进程分配过来的任务
PyCharm远程开发配置
1、背景说明
远程连接方案, 允许所有的程序员都去连接远端的测试环境, 确保大家的环境都是统一的, 避免各种环境问题的发生,而且由于是连接的远程环境, 所有在pycharm编写代码 都会自动上传到远端服务器中, 在执行代码的时候, 相当于是直接在远端环境上进行执行操作
注意: 本次这里配置远端环境,指的连接虚拟机中虚拟环境。可以配置为Base环境,也可以配置为其他的虚拟环境, 但是目前建议配置为Base环境,因为Base环境自带python包更全面一些
2、清理远程环境
在远程环境出错的时候会用到。一般一个远程主机推荐只配置一个
1.点击Settings
2.进入Interpreter
3.删除远程环境
4.删除SSH
到此,远程环境就删除成功了!
3、连接远程环境
1.点击Close Project
2.点击New Project
4.项目路径设置
5.SSH配置
6.选择python3解释器在远程环境的位置
7.配置远程目录
用来存放同步的代码
8.配置好以后,检查pyspark的版本是否是3.1.2
9.自动上传本地项目代码到远程
如果代码没有被自动上传到远程服务器,那么我们可以手动上传
4、重新连接到远程环境
1.点击Settings
2.找到Interpreter
3.新增远程环境
4.SSH配置
5.选择python3解释器在远程环境的位置
如果使用的是其他虚拟环境,通过如下截图进行配置:
6.配置远程目录
用来存放同步的代码
7.配置好以后,检查pyspark的版本是否是3.1.2
8.自动上传本地项目代码到远程
如果代码没有被自动上传到远程服务器,那么我们可以手动上传