sparksql源码系列 | 一文搞懂Show create table 执行原理

小萝卜算子

于 2023-02-16 15:35:39 发布

阅读量1.4k

点赞数 2

分类专栏： spark源码精读分析系列文章标签：大数据 hive hadoop spark 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoluobutou/article/details/129046134

版权

本文深入探讨SparkSQL如何通过源码解析`show create table`命令，了解其与Hive元数据库的交互，解析表的metadata，并呈现最终结果。文章通过模拟测试类、分析实体类与元数据表的关系，以及详细步骤，揭示了执行过程中的核心方法。适合对SparkSQL源码感兴趣的技术人员阅读。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇文章主要介绍了show create table命令执行的源码流程，弄清楚了sparksql是怎么和hive元数据库交互，查询对应表的metadata，然后拼接成最终的结果展示给用户的。

如果你正好也想了解这块，就点赞、收藏吧~

今天这篇文章也是来自于【源码共读群】的一个讨论，先上聊天：

我们平时都很关注select这样的查询语句，却很少关注show create table 这样的语句的执行过程，在网上确实也很难搜到写相关内容的博客。正好借这个问题，深挖一下运行原理，于是，花2个小时，撸一遍源码，得到了基本的结论：

哈哈，感谢大家认可啦，群友都希望录个视频，那我先写文章，然后，再录个短屏。

下面开挖，源码是枯燥的，但也是我们能看到真相的窗口~~

本文基于spark 3.2

本文大纲

1、写能模拟从hive查表的本地测试类

2、hive中的实体类和元数据库表及字段的对应关系

3、源码分析执行过程

1、写能模拟从hive查表的本地测试类

我们在读sparksql源码时，为了方便，基本上都是用df.createOrReplaceTempView("XXX")这样的形式，来产生一些数据，这些足够我们去研究90%以上的规则，但这些不能模拟hive的情况，如果我们搭建远程连hive的环境，又会花费大量的精力。

还好，在sparksql源码工程里，我们可以通过继承TestHiveSingleton，在不用搭建hive环境的情况下，来模拟hive。

这个在【源码共读】的分享上我们会专门讲~~

测试类代码如下：

2、hive中的实体类和元数据库表及字段的对应关系

MTable（类）--> TBLS（表）

MDatabase（类）-->DBS（表）

MStorageDescriptor（类）-->SDS（表）

MFieldSchema（类）-->TYPE_FIELDS（表）

partitionKeys（MTable类中的filed） -->PARTITION_KEYS（表）

parameters （MTable类中的filed--> TABLE_PARAMS（表）

下面的配制包含了类中的字段及表字段的对应关系：

<class name="MTable&#

最低0.47元/天解锁文章

小萝卜算子

博客等级

码龄12年

76
原创

34
点赞

124
收藏

75
粉丝

关注

私信

热门文章

分类专栏

最新评论

SparkSql中多个Stage的并发执行
彦祖好好学: 请问大佬，如何进群？
Sparksql Expression的canonicalized(规范化)操作
bit1010: 作者，你好，请教个问题 select b,B,sum(A+b) as ab,sum(B+a) as ba from testdata2 where b>3 group by b b和B两个attribute最后转换为AttributeReference，他们的ID是一样的，同名(大小写不同)的attribute，生成的ID一样，这个逻辑是在什么地方？谢谢
Sparksql源码系列 | 读源码必须掌握的scala基础语法
bit1010: 当在调用一个函数时，把这个函数应用到参数中。如果传递所有预期的参数，则表示您已完全应用它。如果只传递几个参数并不是全部参数，那么将返回部分应用的函数。上面这段说的是部分应用函数，不是偏函数。Spark SQL规则匹配应用使用的是偏函数
数仓面试——补充缺失日期和数据
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616963866?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
澄清 | snappy压缩到底支持不支持split? 为啥？
Call_me_Mr_P: 感谢科普，终于有个合理的答案了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小萝卜算子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。