weixin_44932024-CSDN博客

原创 Spark性能调优之shuffle调优

目录 HashShuffleManger SortShuffleManager tungsten-sort（钨丝）总结 HashShuffleManger 普通机制示意图比如：有100个节点(每个节点有一个executor)，每个executor有2个cpu core、10个task，那么每个节点会输出10*1000=1万个文件，在map端总共会输出100*10000...

2019-11-09 13:36:55 148

使用广播变量广播变量原理广播变量，在初始时就在driver上有一个副本。Task在运行时要使用广播变量中的数据，此时首先会在自己本地的Executor对应的BlockManager中尝试获取变量的副本；如果本地没有，那么就从driver远程拉取变量副本，并保存在BlockManager中，此后这个executor上的task都会直接使用本地的BlockManager中的副本。 Executo...

2019-11-04 16:56:39 112

原创 Spark性能调优（二）

对共用的RDD进行持久化这种情况是一定要避免的，一旦出现一个RDD重复计算的情况，就会导致性能急剧降低。比如：HDFS-->RDD1-->RDD2的时间是15分钟，那么此时就要执行两遍，变成30分钟可以使用 cache()和 persist()对RDD进行持久化操作其实 cache()就是 persist(MEMORY_NOLY)，只使用内存进行持久化，但在实际的生产...

2019-11-04 15:44:47 89

原创 Spark性能调优（一）

给足资源分配更多资源：性能调优的王道，就是增加和分配更多的资源，性能和速度的提升是显而易见的；基本上，在一定的范围内，增加资源与性能的提升是成正比的。写成一个复杂的spark作业之后，性能调优的第一步，就是要调节最优的资源配置，在这基之上，如果spark作业能够分配的资源达到你能力范围的顶端，无法再分配更多资源了，公司资源有限，那么才考虑做后面的调优的点搭建集群在spark安装包的c...

2019-11-04 14:06:33 115

原创 SparkStream整合kafka0.10

kafka0.8和kafka1.0的区别 1.kafka1.0版本不支持receiver连接方式 2. kafka1.0版本自动更新保存偏移量到kafka中注意如果使用kafka0.10必须在pom文件中添加一下配置 <dependency> <groupId>jaxen</groupId> <artifactId>jax...

2019-11-03 20:34:03 130

weixin_44932024的博客

原创 SparkSQL之UDF、UDAF、UDTF

原创 Spark性能调优之shuffle调优

原创 Spark性能调优（三）

原创 Spark性能调优（二）

原创 Spark性能调优（一）

原创 SparkStream整合kafka0.10

空空如也

空空如也