自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 SparkSQL之UDF、UDAF、UDTF

阿达

2019-11-09 13:47:03 176

原创 Spark性能调优之shuffle调优

目录 HashShuffleManger SortShuffleManager tungsten-sort(钨丝) 总结 HashShuffleManger 普通机制示意图 比如:有100个节点(每个节点有一个executor),每个executor有2个cpu core、10个task,那么每个节点会输出10*1000=1万个文件,在map端总共会输出100*10000...

2019-11-09 13:36:55 148

原创 Spark性能调优(三)

使用广播变量 广播变量原理 广播变量,在初始时就在driver上有一个副本。Task在运行时要使用广播变量中的数据,此时首先会在自己本地的Executor对应的BlockManager中尝试获取变量的副本;如果本地没有,那么就从driver远程拉取变量副本,并保存在BlockManager中,此后这个executor上的task都会直接使用本地的BlockManager中的副本。 Executo...

2019-11-04 16:56:39 112

原创 Spark性能调优(二)

对共用的RDD进行持久化 这种情况是一定要避免的,一旦出现一个RDD重复计算的情况,就会导致性能急剧降低。比如:HDFS-->RDD1-->RDD2的时间是15分钟,那么此时就要执行两遍,变成30分钟 可以使用 cache()和 persist()对RDD进行持久化操作 其实 cache()就是 persist(MEMORY_NOLY),只使用内存进行持久化,但在实际的生产...

2019-11-04 15:44:47 89

原创 Spark性能调优(一)

给足资源 分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度的提升是显而易见的;基本上,在一定的范围内,增加资源与性能的提升是成正比的。写成一个复杂的spark作业之后,性能调优的第一步,就是要调节最优的资源配置,在这基之上,如果spark作业能够分配的资源达到你能力范围的顶端,无法再分配更多资源了,公司资源有限,那么才考虑做后面的调优的点 搭建集群 在spark安装包的c...

2019-11-04 14:06:33 115

原创 SparkStream整合kafka0.10

kafka0.8和kafka1.0的区别 1.kafka1.0版本不支持receiver连接方式 2. kafka1.0版本自动更新保存偏移量到kafka中 注意 如果使用kafka0.10必须在pom文件中添加一下配置 <dependency> <groupId>jaxen</groupId> <artifactId>jax...

2019-11-03 20:34:03 130

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除