Spark
文章平均质量分 85
stone-zhu
我的博客:http://zhuleiblog.com
我的github:https://github.com/Zzz468005600
展开
-
MapReduce 与 Spark 性能对比分析
Spark 和 MapReduce 的对比误区经常听到有人说Spark基于内存计算,将中间结果保存在内存中,避免了磁盘IO的次数。我觉得这句话的表面意思都对,但是很多人并没有了解其真正的含义。spark 为何比 mapreduce 快1. Spark是内存计算,难道MapReduce不是基于内存计算的吗?什么是内存计算,如果是指把磁盘中的数据读取到内存中做计算的话,那么MapReduce肯定也是内存计算。Spark的特殊之处在于可以将RDD缓存到内存之中,下次再使用此RDD时,不用再次计算,而是直接转载 2022-03-18 11:02:44 · 1558 阅读 · 1 评论 -
AWS EMR 上 Spark 任务 Exit status: -100 Container released on a *lost* node 错误
一、问题描述近期,使用 AWS EMR 集群上跑 Spark 任务时常出现 Exit status: -100. Diagnostics: Container released on a lost node 这样的报错信息,导致任务运行失败报错日志如下:ERROR cluster.YarnClusterScheduler: Lost executor 6 on ip-10-0-2-173.ec2.internal: Container marked as failed: container_1467原创 2021-01-22 15:17:38 · 2911 阅读 · 0 评论 -
AWS EMR 上 Spark 任务 Container killed Exit code 137 错误
一、问题描述近期,使用 AWS EMR 集群上跑 Spark 任务时常出现 Container killed on request. Exit code is 137 这样的报错信息,导致任务运行失败报错日志如下:Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 3.0 failed 4 times, most recent failure: Lost task原创 2021-01-22 14:53:26 · 3356 阅读 · 0 评论 -
SparkSQL 中的 hint
SparkSQL 2.2 增加了 Hint Framework 的支持,允许在查询中加入注释,让查询优化器优化逻辑计划。目前支持的 hint 有三个:COALESCE、REPARTITION、BROADCAST,其中 COALESCE、REPARTITION 这两个是 SparkSQL 2.4 开始支持。一、COALESCE、REPARTITION 使用SELECT /*+ COALESCE(2) */ ...SELECT /*+ REPARTITION(10) */ ...这两个 hint原创 2020-06-04 22:42:54 · 3241 阅读 · 0 评论