2021-02-28

最新推荐文章于 2022-06-09 15:35:00 发布

weixin_46100601

最新推荐文章于 2022-06-09 15:35:00 发布

阅读量91

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_46100601/article/details/114240634

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、sparkSQL层级当我们想用sparkSQL来解决我们的需求时，其实说简单也简单，就经历了三步：读入数据 -> 对数据进行处理 -> 写入最后结果，那么这三个步骤用的主要类其实就三个：读入数据和写入最后结果用到两个类HiveContext和SQLContext，对数据进行处理用到的是DataFrame类，此类是你把数据从外部读入到内存后，数据在内存中进行存储的基本数据结构，在对数据进行处理时还会用到一些中间类，用到时在进行讲解。sparkSQL实战详解
2、HiveContext和SQLContext 把HiveContext和SQLContext放在一起讲解是因为他们是差不多的，因为HiveContext继承自SQLContext，为什么会有两个这样的类，其实与hive和sql有关系的，虽然hive拥有HQL语言，但是它是一个类sql语言，和sql语言还是有差别的，有些sql语法，HQL是不支持的。所以他们还是有差别的。选择不同的类，最后执行的查询引擎的驱动是不一样的。但是对于底层是怎么区别的这里不做详细的介绍，你就知道一点，使用不同的读数据的类，底层会进行标记，自动识别是使用哪个类进行数据操作，然后采用不同的执行计划执行操作，这点在上一篇sparkSQL整体框架中进行了介绍，这里不做介绍。当从hive库中读数据的时候，必须使用HiveContext来进行读取数据，不然在进行查询的时候会出一些奇怪的错。其他的数据源两者都可以选择，但是最好使用SQLContext来完成。因为其支持的sql语法更多。由于HiveContext是继承自SQLContext，这里只对SQLContext进行详细的介绍，但是以下这些方法是完全可以用在HiveContext中的。其实HiveContext类就扩展了SQLContext的两个我们可以使用的方法(在看源码时以protected和private开头的方法都是我们不能使用的，这个是scala的控制逻辑，相反，不是以这两个关键字标记的方法是我们可以直接使用的方法)：analyze(tableName:String)和refreshTable(tableName:String)。

weixin_46100601

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-02-28

1、sparkSQL层级当我们想用sparkSQL来解决我们的需求时，其实说简单也简单，就经历了三步：读入数据 -> 对数据进行处理 -> 写入最后结果，那么这三个步骤用的主要类其实就三个：读入数据和写入最后结果用到两个类HiveContext和SQLContext，对数据进行处理用到的是DataFrame类，此类是你把数据从外部读入到内存后，数据在内存中进行存储的基本数据结构，在对数据进行处理时还会用到一些中间类，用到时在进行讲解。sparkSQL实战详解2、HiveContext和SQ
复制链接

扫一扫