Spark
文章平均质量分 93
Spark学习
Apache呀
这个作者很懒,什么都没留下…
展开
-
四万字Spark性能优化宝典
继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。转载 2023-11-08 21:38:38 · 152 阅读 · 0 评论 -
详解Spark 数据倾斜(Data Skew)
Spark 数据倾斜(Data Skew)是一个比较常见的问题。它指的是数据分布不均匀,部分key对应的value数据过多。原创 2023-05-11 14:58:04 · 387 阅读 · 0 评论 -
初识Spark
组件含义关系作用一个Spark应用提交一个或多个Job完成用户业务任务Spark应用的入口管理一个或多个Job处理数据和运行任务JobSpark负责调度和执行的最高级工作单元由一个SparkContext提交完成一件工作Stage多个任务的逻辑划分多个Stage构成一个Job将任务进行分组Task可以独立运行的工作单元一个Stage由一个或多个Task组成执行转换操作TaskSetTask的集合执行相同transformation优化内存和网络使用。原创 2023-05-11 11:43:42 · 52 阅读 · 0 评论 -
如何理解Spark RDD
在实际开发中,应该尽可能使用窄依赖,因为窄依赖可以允许Spark在同一个节点上对多个RDD分区进行计算,从而实现高效的计算,减少数据的传输和复制,具有更高的计算效率和更少的网络开销。相反,宽依赖会导致Spark在不同节点之间进行数据的传输和复制,从而增加网络开销和计算负担,降低计算效率,同时也会增加资源的消耗和计算时间的成本。但是,在某些情况下,使用宽依赖可能是必要的,例如进行groupByKey操作和。原创 2023-05-09 21:28:25 · 192 阅读 · 0 评论