Spark SQL概述

最新推荐文章于 2023-02-23 17:09:52 发布

ysjh0014

最新推荐文章于 2023-02-23 17:09:52 发布

阅读量369

点赞数

分类专栏：大数据 Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ys_230014/article/details/83106592

版权

大数据同时被 2 个专栏收录

158 篇文章 4 订阅

订阅专栏

35 篇文章 0 订阅

订阅专栏

1.什么是Spark SQL

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用，将SQL解析成特殊的RDD(DataFrame)，然后在Spark集群上运行

2.为什么要学习Spark SQL

我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快

3.Spark SQL的特点

1)易整合，可以使用SQL或者DataFrame API

2)统一的数据访问方式，以相同方式连接到任何数据源(Hive，Avro，Parquet，ORC，JSON和JDBC)

3)Hive集成，Spark SQL支持HiveQL语法以及Hive SerDes和UDF，允许访问现有的Hive仓库

4)提供标准的连接(JDBC和ODBC)

4.DataFrame

1)什么是DataFrame

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验

2)RDD与DataFrame的区别

DataFrame里面存放的结构化数据的描述信息，DataFrame要有表头（表的描述信息），描述了有多少列，每一列数叫什么字、什么类型、能不能为空

DataFrame是特殊的RDD（普通的RDD+Schema信息就变成了DataFrame）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。