spark私房菜
介绍spark框架、调优以及学习路线
jiewuyou
爱编程不爱bug
展开
-
百亿级日志处理稳定性保证的一些技巧
为了给各个业务出报表,我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写,为了保证各个业务线在上班前正常看到数据,对例行任务的稳定性提出了要求。由于我们会依赖很多中间层数据,集群偶尔异常、数据存在倾斜等问题,这对我们的例行任务带来了很大的挑战。针对遇到的问题,采用“兵来将挡,水来土掩”的方案,各个击破常见异常:依赖未生成当天任务依赖的数据,部分是前一天的数据,部分是当天其他任务的生成原创 2017-06-22 18:51:41 · 978 阅读 · 0 评论 -
scala代码格式化
开发工具intellij插件Scala、Scalafmt 配置文件( ~/.scalafmt ):--style defaultWithAlign --maxColumn 120 --continuationIndentCallSite 2 --continuationIndentDefnSite 2格式化快捷键Ctrl + Shift + L原创 2016-11-25 18:00:39 · 5994 阅读 · 1 评论 -
Spark学习资料
视频DataBricks出品的Spark入门视频(强推): https://www.edx.org/course/introduction-spark-uc-berkeleyx-cs105x https://www.edx.org/course/big-data-analysis-spark-uc-berkeleyx-cs110x原创 2016-09-20 20:28:50 · 1197 阅读 · 0 评论 -
Spark编程技巧
Spark是一种强烈依赖内存的计算框架,结合其运行流程,可以有很多可以调优的地方用reduceByKey 替代groupByKey这两个转换都有shuffle过程发生,且都类似map reduce,但是reduceByKey会在map阶段会对相同的key进行聚合,极大的减少了map产生的数据量,进而减少了shuffle的数据量,提高了程序的执行效率 避免shuffleshuffle类算子会将多原创 2016-09-20 20:00:20 · 1256 阅读 · 0 评论 -
spark运行方式及其常用参数
本文将介绍spark的几种运行方式,及常用的参数yarn cluster模式例行任务一般会采用这种方式运行指定固定的executor数作业常用的参数都在其中指定了,后面的运行脚本会省略spark-submit \ --master yarn-cluster \ --deploy-mode cluster \ #集群运行模式 --name原创 2016-09-19 18:27:47 · 2054 阅读 · 0 评论 -
spark必须知道的几个观点
executor对应container内存executor对应的内存由两部分组成: –exuecutor-memory控制了堆的大小 –spark.yarn.executor.memoryOverhead 控制堆外内存,默认值(384MB, 0.07 * spark.executor.memory),该值一般偏小,需要调大 日志凡是cluster模式启动的作业,日志都没有打印在本地。因为mai原创 2016-09-19 18:57:09 · 968 阅读 · 0 评论