Spark
文章平均质量分 76
星月情缘02
宝剑锋从磨砺出,梅花香自苦寒来
展开
-
MapReduce Shuffle 和 Spark Shuffle 区别看这篇
MapReduce Shuffle 和 Spark Shuffle 区别看这篇即可Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接...转载 2019-12-14 18:52:26 · 1832 阅读 · 1 评论 -
SparkStreaming 性能调优
在开发Spark Streaming应用程序时,要结合集群中各节点的配置情况尽可能地提高数据处理的实时性。在调优的过程中,一方面要尽可能利用集群资源来减少每个批处理的时间;另一方面要确保接收到的数据能及时处理掉。运行时间优化设置合理的批处理时间和窗口大小Spark Streaming中作业之间通常存在依赖关系,后面的作业必须确原创 2017-10-15 14:47:27 · 1201 阅读 · 0 评论 -
spark大数据架构初学入门基础详解
Spark是什么 a) 是一种通用的大数据计算框架b) Spark Core 离线计算 Spark SQL 交互式查询 Spark Streaming 实时流式计算 Spark MLlib 机器学习 Spark GraphX 图计算c) 特点:i. 一站式:一个技术堆栈解决大数据领域的计算问题ii. 基于内存d) Spark2009年诞生于原创 2017-10-15 16:57:19 · 5276 阅读 · 0 评论 -
spark 三种部署模式的区别-standalone模式,yarn模式与mesos模式的比较总结
在这三种部署模式中,standalone 作为 spark 自带的分布式部署模式,是最简单也是最基本的 spark 应用程序部署模式,这里就不再赘述。这里就讲一下 yarn 和 mesos 的区别: (1) 就两种框架本身而言,mesos上可部署 yarn 框架。而 yarn 是更通用的一种部署框架,而且技术较成熟。 (2) mesos 双层调度机制,能支...转载 2019-06-22 19:06:25 · 2940 阅读 · 0 评论 -
spark 性能调优总结
一、性能调优1、分配资源a、在我们在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数/usr/local/spark/bin/spark-submit \--class cn.spark.sparktest.core.WordCountCluster \--num-executors 3 \ 配置executor的数量--driver-memory...转载 2019-06-30 16:51:07 · 252 阅读 · 0 评论