spark
文章平均质量分 65
yians
这个作者很懒,什么都没留下…
展开
-
深入理解Spark SQL原理
1、前言 本文是对自己阅读Spark SQL源码过程的一个记录,主线是对尚硅谷Spark SQL最后练习中建立的表的一个简单SQL编写的源码实现流程的跟读。通过自问自答的方式,学习完了整个Spark SQL的执行过程。 Spark SQL最终是通过Spark Core的RDD进行计算。所以在阅读Spark SQL源码之前,一定要深刻掌握Spark Core原理,而主线就是如何生成与Spark Core里同样类型的RDD,进一步如何转换为Job。 本文从物理计划开始,描述各个结点的实际转换过程,如原创 2022-02-28 23:54:21 · 3472 阅读 · 0 评论 -
Spark ShuffleRDD生成的两种Task
Spark Core里的ShuffleRDD是对上游RDD的宽依赖,在阶段划分时会生成两个Stage,以下面的WordCount为例,这两个Stage的任务类型分别为ShuffleMapTask和ResultTask:// 创建 Spark 运行配置对象val sparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")// 创建 Spark 上下文环境对象(连接对象)val sc = new SparkCon原创 2022-02-28 15:54:53 · 1028 阅读 · 0 评论 -
理解spark中rpc框架
写起来比较麻烦,列个大致学习路线。一般的介绍很少涉及为什么,大致就是把怎么做的讲述了一下,这其实忽略很多深层次的内容,浪费了更进一步学习的机会。实际上spark rpc和hadoop 1.0时代(现在的估计差不多)差别很大,主要体现在netty的使用和简化的actor模型,带来高性能的同时,也提高了可维护性。1、首先学习netty,这个没什么好说的。本身netty也是java网络编程世界的基石。2、学完netty后看spark rpc,会对rpcenv,endpoint、messageloop和in原创 2022-01-04 23:35:19 · 378 阅读 · 0 评论 -
windows下spark standalone集群模式及集成hive metastore
要开始研究spark的源码了,首先要准备好环境,搭建时的考虑如下:1、开发windows还是首选,所以运行环境限制在windows下2、既然看源码,集群模式绕不过去,使用spark standalone集群已经能说明绝大部分问题,不采用yarn是因为在windows下面搭建太麻烦了3、生产环境肯定是集成hive的metastore,这里使用独立的metastore服务方式,hive已经沦落到元数据管理的作用了,当然即便是元数据管理这一项,也是非常重要的,这里使用mysql作为metastore的原创 2021-12-08 17:14:48 · 906 阅读 · 1 评论 -
Volcano模型和代码生成的简单代码演示
package test;import org.apache.commons.lang.StringUtils;import java.util.Arrays;import java.util.Iterator;abstract class VolcanoNode { protected VolcanoNode child; public VolcanoNode() { } public VolcanoNode(VolcanoNode child) { .原创 2021-12-08 00:55:10 · 741 阅读 · 0 评论