Spark
文章平均质量分 94
Augenstern K
道法自然,旧藏玄冥;天生牛顿,万物生明。
展开
-
Spark SQL
Spark SQL属于Spark计算框架的一部分,是专门负责结构化数据的处理计算框架,Spark SQL提供了两种数据抽象:DataFrame、Dataset,都是基于RDD之上的一种高级数据抽象,在RDD基础之上增加了一个schema表结构。DataFrame是以前旧版本的数据抽象(untyped类型的数据抽象),Dataset是新版本的数据抽象(typed有类型的数据抽象),新版本当中DataFrame底层就是Dataset[Row]。Spark SQL特点易整合统一的数据访问方式。原创 2023-09-30 16:24:37 · 1069 阅读 · 4 评论 -
Spark计算框架
Spark的诞生背景Spark 2009年诞生的一个技术,诞生的主要原因是因为Hadoop大数据解决方案存在一些弊端MR程序是基于磁盘进行运算,因此导致MR程序计算效率底下。MR程序无法计算复杂的任务,如果想要实现复杂的计算逻辑,可能编写多个MR Job,其中后续的Job依赖于前一个Job的输出,但是多个Job无法知道前一个job,需要通过任务调度框架自己指定多job的依赖关系。原创 2023-09-25 21:10:38 · 1039 阅读 · 1 评论