![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 93
能白话的程序员♫
这个作者很懒,什么都没留下…
展开
-
【Spark 源码】1-Spark RPC
Spark 的 RPC 概述Spark 是一个 通用的分布式计算系统,既然是分布式的,必然存在很多节点之间的通信,那么 Spark不同组件之间就会通过 RPC(Remote Procedure Call)进行点对点通信。以下所有都是基于spark2.4.X版本进行分析学习的,该版本也是当前CDH 稳定版本spark中网络通信无处不在,例如-driver和master的通信,比如driver会向master发送RegisterApplication消息 ...原创 2021-11-23 22:00:00 · 1800 阅读 · 0 评论 -
优雅的停止SparkStreaming
背景:流式任务需要7*24小时执行,但是有时涉及到升级代码需要主动停止程序,但是分布式程序,没办法做到一个个进程去杀死,所有配置优雅的关闭就显得至关重要了。可以考虑使用外部文件存储或者关系型数据库、缓存等来控制内部程序关闭。此例子使用hdfs创建指定文件来控制程序的关闭,想要更好的在前端进行控制,可以在注册程序中修改标志源。import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.{FileSystem, Pat原创 2020-07-29 17:33:38 · 380 阅读 · 1 评论 -
【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource
部分报错如下:Traceback (most recent call last): File "/home/cisco/spark-mongo-test.py", line 7, in <module> df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load() ...原创 2020-02-20 16:06:55 · 2546 阅读 · 0 评论 -
Spark资源调度和任务调度
整体流程图如下:Spark资源调度和任务调度的流程:启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了集群资源情况。当Spark提交一个Application后,根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后,Spark会在Driver端创建两个对象:DAGScheduler和TaskScheduler,DAGSched...原创 2019-04-17 16:40:52 · 165 阅读 · 0 评论 -
spark on hive (spark 使用hive元数据)
以Python为例子:spark = SparkSession.builder.config("hive.metastore.uris","thrift://10.1.1.18:9083").appName("tSalesItem").enableHiveSupport().getOrCreate()spark.sql("show databases").show()异常处理:#查...原创 2019-07-08 18:05:28 · 1557 阅读 · 0 评论 -
pyspark 提交任务参数
spark-submit命令利用可重用的模块形式编写脚本,并且以编程方式提交作业到Spark。spark-submit命令spark-submit命令提供一个统一的API把应用程序部署到各种Spark支持的集群管理器上,从而免除了单独配置每个应用程序。命令行参数下面逐个介绍这些参数:--master:用于设置主结点URL的参数。local:用于执行本地机器的代码。Spark运行一...转载 2019-07-16 16:30:22 · 4421 阅读 · 0 评论