Spark SQL
大数据系统工程师
这个作者很懒,什么都没留下…
展开
-
Spark SQL 初识1(2.0)
什么是Spark SQL 1. Apache Spark SQL 是Spark用来操作结构化与半结构化数据的接口。2. 从历史来讲,Spark SQL 的前身是Shark (SQL on Spark), Shark之于Spark就相当于hive 之于Hadoop MapReduce。3. Spark SQL提供了一种特殊的RDD,早些版本称为SchemaRDD,从Spark1.3.0以转载 2017-12-20 10:50:59 · 619 阅读 · 0 评论 -
Spark SQL 初始2 之 DataFrame API(2.0)
什么是DataFrame1. DataFrame 是Spark SQL的主要数据抽象(RDD是Spark的主要数据抽象)是相同模式行的分布式集合(这些行以命名的列方式组织),等同于关系数据库的表支持关系操作(selecting, filtering, aggregating, and plotting structured data)。2. DataFrame 支持从已存在的原生转载 2017-12-20 11:26:27 · 302 阅读 · 0 评论 -
spark sql 执行流程
在前面的文章《spark基础(上篇)》和《spark基础(下篇)》里面已经介绍了spark的一些基础知识,知道了spark sql是spark中一个主要的框架之一。本文我们通过源码,来介绍下spark sql的执行流程。 Spark sql是spark内部最核心,也是社区最活跃的组件。Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。列式存储的类RDD(D转载 2018-01-10 16:44:14 · 8044 阅读 · 1 评论