![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark 基础
大数据系统工程师
这个作者很懒,什么都没留下…
展开
-
spark 基础 上
Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是apache的一个开源项目。是一种跟hadoop相似的通用分布式并行计算框架,但是两者之间还存在一些不同之处。spark是一种基于内存计算的分布式执行框架,在执行速度上大大优于hadoop.1. spark的历史2009年,spark诞生于加州大学伯克利分校AMPLab.2010和2012年关于spark的两篇论文发表:M.转载 2018-01-10 16:26:01 · 357 阅读 · 0 评论 -
spark 基础 下
上篇介绍了spark的突出特点以及基本框架,下面给大家介绍下spark的基本数据结构、spark任务调度的详细流程以及spark中stage的划分。5. spark的基本数据类型RDD、DataFrame和DataSet可以说是spark独有的三种基本的数据类型。Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,转载 2018-01-10 16:42:03 · 591 阅读 · 0 评论