Spark
zhang1150720003
这个作者很懒,什么都没留下…
展开
-
Spark基本术语
Master 集群的领导者,负责集群资源管理,接收客户端提交的作业,向Worker发送命令Worker 集群的执行者,分配具体的任务并执行下发的任务Driver 一个Spark 作业运行时会启动一个Driver 进程,也是作业的主进程,负责作业的解析、生成Stage ,并调度Task 到Executor 上Executor 分布在工作节点...原创 2019-02-19 12:23:31 · 192 阅读 · 0 评论 -
Spark性能优化方向
1、高性能序列化库2、数据结构优化3、RDD持久化级别4、JVM垃圾回收调优5、并行度提高6、广播共享数据7、数据本地化8、Shuffle调优9、合理使用SparkAPI ...原创 2019-02-19 12:46:50 · 154 阅读 · 0 评论 -
Spark持久化级别
Spark最重要的一个功能,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(Actions)变得更加迅速(通常快10倍)。缓存是用Spark构建迭代算法的关键。 在Spark中,cache和persist用于将RDD持久化到缓存中...原创 2019-02-19 15:49:15 · 482 阅读 · 0 评论