spark经验总结
文章平均质量分 79
xwc35047
时间有限,但做于自己的无限。(公众号:水木之椿)
展开
-
spark-summit 中出现Initial job has not accepted any resources; check your cluster UI to ensure that wor
spark-summit 中出现Initial job has not accepted any resources; check your cluster UI to ensure that…Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered原创 2015-03-23 22:59:26 · 3276 阅读 · 0 评论 -
Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查
Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查原创 2017-12-11 11:59:48 · 9500 阅读 · 0 评论 -
spark shuffle 发展变迁及源码实现
本文主要分享关于spark shuffle优秀文章汇总,通过这几篇文章,能由浅入深学习spark shuffle过程。MR与Spark shuffle过程区别 MR与这里写链接内容Spark shuffle区别发展历程了解: spark shuffle从0.X到2.X的发展历程shuffle write和shuffle read的理论解读: spark shuffle 过程理论解读根据shuf原创 2017-11-25 22:00:38 · 1111 阅读 · 0 评论 -
Spark作业提交执行流程源码图
环境:代码图基于Spark 2.2.1 工具:OmniGraffe最近想完整梳理一下作业提交流程,通过自己的理解画图来学习Spark。1) 首先了解作业提交后RDD的流动情况如上图,以RDD构建的DAG给DAGScheduler进行stage划分,DAGScheduler负责stage层面的提交和失败处理。然后提交taskSet给TaskScheduler进行处理,TaskScheduler原创 2017-12-06 17:22:11 · 3656 阅读 · 0 评论 -
spark 机制原理自问自答
本文主要收录spark学习和工作中思考的问题。1、当Spark task failed,什么情况下task重计算,什么情况下stage重计算?答:如果task失败是因为shuffle output files lost,则DAGScheduler会对stage重提交计算;如果不是因为shuffle file lost,则选择resubmit task。这是因为shuffle output file原创 2017-11-26 13:24:23 · 3353 阅读 · 0 评论 -
Spark内存泄露问题分析追查
本文分析思路非常清晰,这里转载作为学习分析spark内存泄露问题的案例。(原文见文章末尾参考)[Abstract]I recently encountered an OOM error in a PageRank application (org.apache.spark.examples.SparkPageRank). After profiling the application, I转载 2018-01-11 10:15:33 · 3018 阅读 · 0 评论 -
Spark与Hive的Beeline运行机制
因为业务中主要使用Spark Thriftserver作为adhoc查询服务,而Spark原生是不支持SQLStdBasedAuthorization,所以需要调研这方面源码,本文将这方面的理解分享给大家,如有错误欢迎指出。Spark的beeline在很多地方直接沿袭hive的beeline,当然Spark也有很多适应性的本地化改造,下面从数据流的角度来讲解。 (注:Spark源码主要依据spar原创 2018-01-03 19:39:58 · 6120 阅读 · 0 评论 -
Leveraging Alluxio with Spark SQL to Speed Up Ad-hoc Analysis
BackgroundAt present, hundreds of TB of data is processed in Momo bigdata cluster every day. However, most of the data will be read/write through disk repeatedly, which is ineffective. In order to s...原创 2018-01-23 18:46:16 · 1143 阅读 · 0 评论 -
spark 2.X 疑难问题汇总
当前spark任务都是运行在yarn上,所以不用启动长进程worker,也没有master的HA问题,所以主要的问题在任务执行层面。作业故障分类故障主要分为版本,内存和权限三方面。 - 各种版本不一致 - 各种内存溢出 - 其他问题版本不一致1)java版本不一致报错:java.lang.UnsupportedClassVersionError: com/im原创 2016-12-29 23:39:18 · 31567 阅读 · 7 评论 -
Alluxio 1.6.1 与Spark SQL结合使用踩坑总结
1、 扫表问题表不存在hdfs,但在元数据中java.lang.RuntimeException: serious problem at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo(OrcInputFormat.java:1021) at org.apache.ha...原创 2018-03-22 17:50:47 · 1501 阅读 · 0 评论 -
Spark立体全服务SQL鉴权
1、问题背景在Zeppelin连接Spark实现SQLStdBasedAuthorization权限验证一文中说明了使用Zeppelin的jdbc解析器连接Spark Thriftserver的鉴权处理方案,解决通过Thriftserver使用Spark sql的权限问题。要让Spark全方位提供给不同层次用户使用,开放的使用接口除了Thriftserver(jdbc接口),还有Spark...原创 2017-02-20 18:18:15 · 2215 阅读 · 2 评论 -
Spark streaming 执行流程源码图
该图主要是笔者准备硕士毕业论文时基于Spark 1.5 所画,新版本Spark 2.X应该有所变化,但大体流程应该相似,可作为读者学习整体框架流程参考。原创 2017-11-02 18:28:24 · 1268 阅读 · 0 评论 -
30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题:什么是Spark Streaming实时计算?Spark实时计算原理流程是什么?Spark 2.X下一代实时计算框架Structured StreamingSpark Streaming相对其他实时计算框架该如何技术选型?本文主要针对初学者,如果有不明白的概念可了解之前的博客内容。1、什么是Spark Streaming?与其他大数据框架Storm、Flink一样,S原创 2017-02-18 17:12:49 · 26856 阅读 · 4 评论 -
spark 2.0.1 和zeppelin 0.6.2 编译及与hadoop yarn关联
以下是工作学习过程中对spark 2.0.1 和zeppeline 0.6.2的编译和关联的步骤及踩到的坑。原创 2016-10-28 14:16:35 · 1756 阅读 · 2 评论 -
spark standalone模式作业迁移到spark on yarn
本文主要介绍spark standalone模式的作业迁移到spark on yarn上的一些操作。1、代码重新编译因为之前spark standalone项目使用的是spark 1.5.2版本,而现在的spark on yarn 使用的是spark 2.0.1,所以先需要对原来代码重新编译,建议使用maven构建项目,根据需要使用下面提供的pom.xml文件即可自动下载当前部署版本所需的jar包。原创 2016-11-20 23:06:19 · 4618 阅读 · 0 评论 -
30分钟概览Spark分布式计算引擎
Spark入门30分钟概览1、为什么出现Spark?2、Spark核心是什么?3、Spark怎么进行分布式计算?4、Spark在互联网公司的实践应用?原创 2017-03-04 16:19:38 · 21744 阅读 · 3 评论 -
Spark性能调优2-总结分享
1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,hadoop 2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下...原创 2017-05-01 09:43:29 · 7312 阅读 · 0 评论 -
Spark性能调优1-测试记录
1、调优背景 Spark作为Zeppelin的SQL底层执行引擎,通过Thriftserver处理jdbc连接,为提高硬件资源利用率、IO带宽和内存利用率,特针对性的进行Spark性能调优,目的是提高多租户环境下Spark SQL执行效率。2、整体调优结果表2-1 整体调优结果 sql NO. MR sp-1(s)...原创 2017-05-01 09:03:09 · 4952 阅读 · 2 评论 -
dr.elephant 环境搭建及使用详解
Dr.elephant是一款对Hadoop和Spark任务进行性能监控和调优的工具,它由LinkedIn的团队于2016年开源,开源之前已经在公司运行使用2年。目前使用Dr.elephant的公司国内的有Didi,国外的有airbnb、inmobi、hulu、FourSquare和PayPal等等。 项目地址:https://github.com/linkedin/dr-elephant笔者所在公原创 2017-06-23 12:27:56 · 10201 阅读 · 7 评论 -
基于Spark streaming的SQL服务实时自动化运维
设计背景spark thriftserver目前线上有10个实例,以往通过监控端口存活的方式很不准确,当出故障时进程不退出情况很多,而手动去查看日志再重启处理服务这个过程很低效,故设计利用Spark streaming去实时获取spark thriftserver的log,通过log判断服务是否停止服务,从而进行对应的自动重启处理,该方案能达到秒级 7 * 24不间断维护服务。设计架构在需要检测的原创 2017-07-18 16:38:28 · 2237 阅读 · 0 评论 -
Spark 序列化问题全解
在Spark应用开发中,很容易出现如下报错:org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304) at org.apache.spark.util.ClosureCl原创 2017-11-01 10:56:42 · 15002 阅读 · 0 评论 -
spark checkpoint机制简述
本文主要简述spark checkpoint机制,快速把握checkpoint机制的来龙去脉,关于源码方面可以看参考文章。1、Spark core的checkpoint1)为什么checkpoint?分布式计算中难免因为网络,存储等原因出现计算失败的情况,RDD中的lineage信息常用来在task失败后重计算使用,为了防止计算失败后从头开始计算造成的大量开销,RDD会chec...原创 2017-11-02 16:56:28 · 4356 阅读 · 0 评论 -
spark thriftserver进程fullgc导致卡死和计算getsplit时间很长问题
背景参考饿了么经验:https://zhuanlan.zhihu.com/p/28574213饿了么经验中谈到:“hive.exec.orc.split.strategy为ETL”,但是这样可能导致spark thriftserver的内存压力很大,面对大作业会导致full gc从而进程卡死或退出。原因先看看split的strategy类别,它有BI,ETL和HYBRID三种,...原创 2018-04-09 18:54:55 · 2504 阅读 · 1 评论