![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
引领时尚S
这个作者很懒,什么都没留下…
展开
-
spark源码一站式编译
spark源码一站式编译前段时间,想熟悉下spark的源码,遇到了一些问题,在此记录,期待可以帮到更多的小伙伴!后续会陆续将阅读的spark源码笔记公布出来。。1、具体步骤 # 从spark github上clone下相应的源码 git clone https://github.com/apache/spark.git # 设置maven,防止 export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" # 编译 mvn原创 2020-07-09 16:55:06 · 370 阅读 · 0 评论 -
hive_sql简单优化方案
这里的优化方面只在sql【spark】层面,对于参数的调整,这里不做介绍。1、表设计层面优化① 尽量使用分区表操作。② 利用桶表优化③ 选择合适的文件存储格式2、语法和参数层面① 优先过滤数据尽量减少每个阶段的数据量,对于分区表能用上分区字段的尽量使用,同时只选择后面需要使用到的列,最大限度的减少参与join的数据量。除了需要必须表里所有的字段,否则禁止使用select *② ...原创 2020-02-28 18:30:34 · 325 阅读 · 0 评论 -
spark技术之常用必备算子
1、常用算子① aggregate算子import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDD/** * 测试aggregate算子 * action操作, * 第一个参数是初始值, * 第二个参数:是2个函数[每个函数都是2个参数 * (第一个参数:先对个个分区进...原创 2019-08-17 11:11:27 · 397 阅读 · 0 评论