![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 80
你说个der
努力~
展开
-
【Spark问题诊断】WARN hdfs.DFSClient: Failed to connect to /10.23.60.50:9866 for block ...
线上StructuredStreaming出现以下情况:最后一个task运行时间明显不正常,于是翻了executor的日志,报错如下:21/10/20 17:04:53 WARN hdfs.DFSClient: Failed to connect to /xxx.50:9866 for block BP-2045603532-xxx-1567160332810:blk_1269487871_195770142, add to deadNodes and continue. java.net.原创 2021-10-20 18:10:34 · 1949 阅读 · 0 评论 -
Spark源码分析之:Shuffle
这一篇我们来分析Spark2.1的Shuffle流程。其实ShuffleDependency从SparkContext初始化就已经被DAGScheduler划分好了,本文主要探讨在Task运行过程中的ShufleWrite和ShuffleRead。要从Task运行开始说起,就要知道Task在哪里运行的。我们普遍认为Executor是负责执行Task的,但是我们发现Executor其实就是一个类private[spark] class Executor(){}而在一个Application提原创 2021-03-16 16:48:54 · 474 阅读 · 1 评论 -
Spark on YARN的任务提交流程源码分析一:cluster模式
Spark的部署模式有Standalone、Hadoop YARN、Apache Mesos、Kubernete四种。在我们平时的练习中,可能会用到Standalone模式,但是在实际生产环境中,绝大多数用的还是YARN(Mesos国内基本很少用)。而对于YARN的两种模式,个人认为cluster模式比较多,所以,我们先从cluster模式讲起。之前我也知道在一个Spark程序中,Driver是什么,Executor是什么,在YARN的cluster模式下,Driver是运行在Applicati.原创 2021-01-15 10:44:54 · 537 阅读 · 0 评论 -
SparkSQL整合Drools,并用MySQL数据库实现动态规则
前言Drools这个规则引擎其实不怎么好用,但是总比if-else强,虽然用着憋屈,但需要的时候也是没办法。在网上找过很多文章和视频,要不就是实用性不高的Demo,要不就是粗略归纳,看的云里雾里的水文。我自己也是被这个东西恶心到了,所以完成之后决定写一个实用的Demo,希望可以帮助到需要的人。一:Drools的使用其实Drools的使用方式我觉得有3种:基于Web页面的WorkBench优点:web页面,操作简单,可动态配置修改规则文件,不影响项目的运行缺点:web页面卡顿。。..原创 2020-09-04 18:05:16 · 3971 阅读 · 4 评论