Spark基础

最新推荐文章于 2024-11-07 19:20:36 发布

中长跑路上crush

最新推荐文章于 2024-11-07 19:20:36 发布

阅读量622

点赞数 5

分类专栏： Spark阶段文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/weixin_58026490/article/details/135530154

版权

Spark阶段专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Spark基础

建库一定要指定字符集，错了好多次了

pip

卸载某个模块

pip uninstall pandas

-- 下载其它的改掉pandas即可
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pandas

更新最新版本pip
python -m pip install --upgrade pip

1、启动服务

Hadoop

启动全部服务
*****/hadoop/sbin/start-all.sh
启动hdfs
*****/hadoop/sbin/start-dfs.sh
启动yarn
*****/hadoop/sbin/start-yarn.sh
启动history日志服务
*****/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver

Spark

同上，前面是你自己安装的路径

启动standalone资源调度服务
/spark/sbin/start-all.sh
启动master
/spark/sbin/start-master.sh
启动历史日志服务
/spark/sbin/start-history-server.sh

2、spark的(交互开发)指令参数

在通过指令运行时，就是进入交互模式，运行一个计算程序
该参数对spark指令都有效的
计算任务运行期间查询计算的任务信息可以访问4040端口
计算任务结束后查询计算的任务信息可以访问18080端口

pyspark --master yarn --name shaonianlu_conf --conf 'spark.sql.shuffle.partitions=100'
使用yarn进行资源调度，指定任务名为shaonianlu 更改配置信息

3、dirver和excutor

dirver 和excutor是两个进程程序
当spark的计算代码程序运行时就会产生一个dirver，dirver管理执行计算任务
driver会先申请资源，创建出excutor进程
excutor进程创建成功或通知driver，dirver会将计算任务以线程的方式交给excutor执行
dirver 负责管理计算任务
excutor 负责执行计算任务