spark
文章平均质量分 77
XavierYen
这个作者很懒,什么都没留下…
展开
-
Spark操作外部数据源(RDBMS,Hive,HBase,Parquet)
文章目录一、Spark SQL二、Spark on Hive三、Hive on Spark 一、Spark SQL RDD(Resilient Distribute Dataset),弹性分布式数据集。 Resilient:RDD默认是存放于内存中,当内存不足时会自动写入磁盘。 Distributed:RDD是将数据拆分为多个分区的集合,存储在集群的工作节点上的内存和磁盘中。 Dataset:RDD只是用于做数据转换的接口,并不真正存储数据,指向的是对数据和操作的描述和记录。 Lineage:RDD可原创 2021-01-10 18:19:07 · 370 阅读 · 0 评论 -
Spark基础(一):作业执行流程
文章目录Spark执行流程 Spark执行流程 提交应用程序Application(包括Driver代码和Executor代码) 启动Driver,创建SparkContext对象,并加载配置信息、依赖信息和代码 DAG graph:根据用户提交的计算逻辑(Application)中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG(有向无环图)。 DAGScheduler:基于stage的调度器,负责创建Job,将DAG中的RDD划分到不同的Stage,并将Sta原创 2021-01-06 03:27:49 · 2860 阅读 · 4 评论