极客神殿

坚持,自由,信仰

排序:
默认
按更新时间
按访问量

spark调优(七)【Spark性能优化指南——高级篇】

1 数据倾斜调优1.1 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。2.2 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别t...

2017-12-02 23:23:47

阅读数:321

评论数:1

spark调优(六)【Spark性能优化指南——基础篇】

1 前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数...

2017-12-02 11:43:28

阅读数:328

评论数:0

spark调优(五)【Cigna优化Spark Streaming实时处理应用】

Cigna优化Spark Streaming实时处理应用 1 框架一览 事件处理的架构图如下所示。 2 优化总结 当我们第一次部署整个方案时,kafka和flume组件都执行得非常好,但是spark streaming应用需要花费4-8分钟来处理单个batch。这个延迟的原因有两点...

2017-12-02 11:42:14

阅读数:529

评论数:0

spark调优(四)【databricks spark知识库】

1 最佳实践 1.1 避免使用 GroupByKey 让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用 reduceByKey, 另外一种方式使用 groupByKey: val words = Array("one", "two"...

2017-12-02 11:41:26

阅读数:290

评论数:0

spark调优(三)【spark性能调优】

spark性能调优 当你开始编写Apache Spark代码或者浏览公开的API的时候,你会遇到诸如transformation,action,RDD等术语。了解到这些是编写Spark代码的基础。同样,当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候,你需要去了解...

2017-12-02 11:38:48

阅读数:353

评论数:0

spark调优(二)【spark性能调优(官方)】

Spark调优 由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU、网络带宽、或者内存等。最常见的情况是,数据能装进内存,而瓶颈是网络带宽;当然,有时候我们也需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存。 本...

2017-12-02 11:31:03

阅读数:263

评论数:0

spark调优(一)【spark参数介绍】

1 spark on yarn常用属性介绍 属性名 默认值 属性说明 spark.yarn.am.memory 512m 在客户端模式(client mode)下,yarn应用master使用的内存数。在集群模式(cluster mode)下,使用spark.driver.m...

2017-12-01 17:02:58

阅读数:578

评论数:0

Spark 编程指南(二)

引入 SparkSpark 1.2.0 使用 Scala 2.10 写应用程序,你需要使用一个兼容的 Scala 版本(例如:2.10.X)。写 Spark 应用程序时,你需要添加 Spark 的 Maven 依赖,Spark 可以通过 Maven 中心仓库来获得:groupId = org.ap...

2017-10-26 17:12:25

阅读数:392

评论数:1

Spark 编程指南(一)

使用 Spark Shell基础Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。在 Spark 目录里使用下面的方式开始运行:./bin/sp...

2017-10-26 17:08:35

阅读数:305

评论数:1

SparkSQL演示

//启动spark-shell bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g//RDD演示 val sqlContext= new org.apache.spark.sql.SQLContext(sc) imp...

2017-10-18 21:25:03

阅读数:284

评论数:1

Spark编程

//parallelize演示 val num=sc.parallelize(1 to 10) val doublenum = num.map(_*2) val threenum = doublenum.filter(_ % 3 == 0) threenum.collect threenum.to...

2017-10-11 21:17:26

阅读数:287

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭