2020年01月_xuehuagongzi000

11月 07月 06月 05月 04月 03月 02月 01月

原创 spark的jvm调优

1、实际应用 val sc = new SparkContext(new SparkConf(). setAppName("product3_source"). set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"). set("spark.memory.useLegacyMode", "true"...

2020-01-21 11:17:34 166

原创 spark数据倾斜解决方案

1、适当提高reducer端的并行度适用场景：如果某个 Task 有 100个 Key ·且数据量特别大，就极有可能导致 OOM 或者任务运行特别慢，此时如果把并行度变大，则可以分解该 Task 的数据量，例如，把原本 Task 的 100 个 Key 分解给 10 个 Task，这就可以减少每个 Task 的数据量，从而有可能解决 OOM 和任务运行慢的问题。 2、使用随机...

2020-01-20 16:34:46 146

原创 spark知识点

1、spark为什么比hadoop计算快？（1）、落地方式不同 mapreduce任务每一次处理完成之后所产生的结果数据只能够保存在磁盘，后续有其他的job需要依赖于前面job的输出结果，这里就只能够进行大量的io操作获取得到，性能就比较低。 spark任务每一次处理的完成之后所产生的结果数据可以保存在内存中，后续有其他的job需要依赖于前面job的输出结果，这里就可以直接从内存中获取得到...

2020-01-16 17:42:50 193

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人