spark
少林码僧
专注elasticsearch搜索领域8年,有海量数据搜索功能架构经验
展开
-
Spark性能优化指南——高级篇
文章目录调优概述 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却...原创 2019-10-18 16:59:37 · 354 阅读 · 0 评论 -
spark调优指南
文章目录Spark 内核原理快速入门1. Spark 内核原理1.1 Spark 是什么1.2 RDD 及其存储1.3 RDD 五大特性1.3.1 分区列表1.3.2 Compute 计算函数1.3.3 依赖关系 Dependency1.3.4 分区器 Partitioner1.3.5 Partition 位置列表1.4 RDD“弹性”的 7 个体现2. Spark 宽窄依赖2.1 窄依赖2.2 ...原创 2019-09-29 18:35:08 · 565 阅读 · 0 评论