Spark理论知识—1

1、Spark集群开发

spark集群运行时需要使用hdfs存储日志 9870端口
/export/server/hadoop/sbin/start-dfs.sh
# 手动退出安全模式
hdfs dfsadmin -safemode forceExit
使用yarn进行资源调度服务 8088端口
/export/server/hadoop/sbin/start-yarn.sh

执行到这里我问一个问题
为什么不直接全部启动?
/export/server/hadoop/sbin/start-all.sh

启动standalone进行资源调度 spark使用自带资源调度服务 8080端口
/export/server/spark/sbin/start-all.sh /export/server/spark/sbin/stop-all.sh

注意这里是all.sh是把所有的都启动了。
问:
如何只启动spark计算引擎,而不启动spark自带的资源调度服务。

2、Anaconda

# 总结成两句话:
	1、anaconda集成了python解释器和各种数据开发模块,服务器可以直接安装anaconda工具
	2、anaconda引入虚拟环境,正常情况下一台电脑只能装一个python3的版本,不管你放C盘还是移动盘,但是anaconda虚拟环境可以让你一台电脑装python38,python39
# 操作
	1、查看所有虚拟环境
	2、创建新的虚拟环境
	3、删除虚拟环境
	4、进入虚拟环境
	5、退出虚拟环境

查看当前有多少虚拟环境
conda info --envs
创建新的虚拟环境
conda create -n shaonianlu python=3.9
进入某个虚拟环境
conda activate shaonianlu
推出当前虚拟环境
conda deactivate
删除
conda remove -n shaonianlu --all

3、pycharm远程开发配置

远程开发需要用到什么?

  • ssh连接远程服务器,用以操作服务器

  • jdbc协议远程连接服务器的数据库

  • sftp服务,将本地目录和远程服务器上的目录做映射,将本地代码文件同步到远程服务器上

  • 连接远程的python环境,可以使用远程python环境运行代码

SSH远程连接服务器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

python配置远程Python环境和sftp映射

在这里插入图片描述
在这里插入图片描述

这个图要能看懂
在这里插入图片描述

报错

无法运行或者找不到,这俩种遇到任何一种都删除配置

删什么东西?

  1. sftp的remote host先删除掉
  2. 再删除远程python环境

集群模式下standalone高可用(这个是大前提,不少错误都是没开高可用)

交互式

(base)node1: 直接pyspark进入的是本地模式 在node1上输入就使用node1的资源,在node2上输入就使用node2的资源[代码测试用]
(base)node1: pyspark --master spark://node1:7077 standlaone
(base)node1: pyspark --master spark://node1:7077,node2:7077 但是你前提得开启zk服务,并在另一台服务器开启备用服务 高可用模式
(base)node1: pyspark --master yarn

脚本式
from pyspark import SparkContext
# 没有指定任何参数,使用本地local模式
sc = SparkContext()

# master参数可以指定调用的资源服务
#  使用standalone资源调度
sc = SparkContext(master='spark://node1:7077')

# 使用standalone高可用资源调度
sc = SparkContext(master='spark://node1:7077,node2:7077')

# 使用yarn资源调度
sc = SparkContext(master='yarn')

ssh连接慢或者sftp连接慢

vim /etc/ssh/sshd_config【哪台连接的慢,你就修改哪台的】
在这里插入图片描述
在这里插入图片描述

别忘记重启

systemctl restart sshd

单词

Proceed:继续进行

Remote:远程  -->remote host :远程主机
  • 18
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值