- 博客(3)
- 收藏
- 关注
原创 spark的jvm调优
1、实际应用 val sc = new SparkContext(new SparkConf(). setAppName("product3_source"). set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"). set("spark.memory.useLegacyMode", "true"...
2020-01-21 11:17:34 166
原创 spark数据倾斜解决方案
1、适当提高reducer端的并行度 适用场景: 如果某个 Task 有 100个 Key ·且数据量特别大,就极有可能导致 OOM 或者任务运行特别慢,此时如果把并行度变大,则可以分解 该 Task 的数据量,例如,把原本 Task 的 100 个 Key 分解给 10 个 Task,这就可以减少每个 Task 的数据量,从而有可能解决 OOM 和任务运行慢的问题 。 2、使用随机...
2020-01-20 16:34:46 146
原创 spark知识点
1、spark为什么比hadoop计算快? (1)、落地方式不同 mapreduce任务每一次处理完成之后所产生的结果数据只能够保存在磁盘,后续有其他的job需要依赖于前面job的输出结果,这里就只能够进行大量的io操作获取得到,性能就比较低。 spark任务每一次处理的完成之后所产生的结果数据可以保存在内存中,后续有其他的job需要依赖于前面job的输出结果,这里就可以直接从内存中获取得到...
2020-01-16 17:42:50 193
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人