spark
文章平均质量分 79
yaoyaostep
这个作者很懒,什么都没留下…
展开
-
Spark性能优化 开发调优
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据转载 2017-05-12 14:41:47 · 213 阅读 · 0 评论 -
Spark性能优化 资源调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2017-05-12 14:43:24 · 272 阅读 · 0 评论 -
Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此转载 2017-05-12 14:44:46 · 297 阅读 · 0 评论 -
Spark性能优化 shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2017-05-12 14:46:38 · 369 阅读 · 0 评论 -
spark 2.2 源码分析 Spark-shell 篇
spark 2.2 源码分析 Spark-submit 篇本文主要剖析了spark的任务提交过程。在用户写完scala脚本后,进行spark-submit的shell脚本的任务提交,其内部的调用原理:1 任务的提交/bin/spark-submit \ --class org.apache.spark.examples.Helloworld \ --master spark原创 2017-11-17 21:36:49 · 629 阅读 · 0 评论 -
spark 2.2 源码分析 Spark-submit 篇
spark 2.2 源码分析 Spark-submit 篇本文主要分析spark的第一步spark-submit类。之前shell阶段主要就是环境变量的加载,而个人认为spark-submit才是spark程序的真正步。由上文可知org.apache.spark.launcher.Main启动了 org.apache.spark.deploy.SparkSubmit。我们来看一下submi原创 2017-11-22 23:24:24 · 1030 阅读 · 0 评论 -
spark的性能优化
基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行的task,stage内部是不能出现shuffle的,因为shuffle的就像篱笆一样阻止了并行task的运转载 2018-02-06 13:33:42 · 340 阅读 · 0 评论