json_tuple一定比 get_json_object更高效吗？

小萝卜算子

于 2023-02-13 15:08:13 发布

阅读量573

点赞数 1

分类专栏： spark源码精读分析系列文章标签： json spark 大数据数据仓库 hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoluobutou/article/details/129009404

版权

spark源码精读分析系列专栏收录该内容

46 篇文章

订阅专栏

要理性的比较json_tuple和get_json_object的效率，最近有朋友问我：hive中取多个key时，为什么用了json_tuple，效率反而比get_json_object慢了一些？

先看一下网上的结论：

上面是搜索网上的结论的截图，基本都会认为json_tuple比get_json_object高效，理由是：取多个key值时，json_tuple只解析一次，而get_json_object需要解析多次。

我们来看实际情况：

1、get_json_object缓存jsonObject (并非无脑解析多次)

一般情况下，由json字符串序列化成jsonObject这个过程是最耗费时间的。从代码中可以看到，get_json_object函数会缓存jsonObject，也就是说json字符串转化为jsonObject的过程只有一次。并不是解析多次。

2、执行计划层面（get_json_object更简洁，json_tuple更繁重）

从下图中可以看到，get_json_object的执行计划，只有一个selectOperator ，非常简单

而json_tuple是属于udtf函数，中间会有udtf相关的operator

详情可以参考：你真的了解Lateral View explode吗？这篇

执行计划图大概是这个样子：

图是从你真的了解Lateral View explode吗？中取的，不太合适，但基本流程是一样的

json_tuple在这个过程中也是有一定的性能损耗的

3、从功能多样性来看（这个和性能无关啦）

get_json_object方法可以处理的 path更为丰富，能够支持正则、支持嵌套、取多层等。

而json_tuple简单粗暴，只能解析第一层key

以上，我们在实际用的时候，不要盲从，用get_json_object也是没关系的，况且正常情况下，一次也不会取成千上万个key值... 重要的是要保证，我们的json字符串一定不要存的太长，太大，这样的话，不管用哪个函数，效率都不会好

Hey!

我是小萝卜算子

在成为最厉害最厉害最厉害的道路上

很高兴认识你

推荐阅读：

with as 语句真的会把查询的数据存内存嘛？

SparkSql LogicalPlan的resolved变量

Spark sql 生成PhysicalPlan（源码详解）

一文搞懂 Maven 原理

AstBuilder.visitTableName详解

从一个sql任务理解spark内存模型

Spark sql规则执行器RuleExecutor(源码解析)

spark sql解析过程中对tree的遍历（源码详解）

你真的了解Lateral View explode吗？--源码复盘

小萝卜算子

博客等级

码龄12年

76
原创

35
点赞

124
收藏

76
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

SparkSql中多个Stage的并发执行
彦祖好好学: 请问大佬，如何进群？
Sparksql Expression的canonicalized(规范化)操作
bit1010: 作者，你好，请教个问题 select b,B,sum(A+b) as ab,sum(B+a) as ba from testdata2 where b>3 group by b b和B两个attribute最后转换为AttributeReference，他们的ID是一样的，同名(大小写不同)的attribute，生成的ID一样，这个逻辑是在什么地方？谢谢
Sparksql源码系列 | 读源码必须掌握的scala基础语法
bit1010: 当在调用一个函数时，把这个函数应用到参数中。如果传递所有预期的参数，则表示您已完全应用它。如果只传递几个参数并不是全部参数，那么将返回部分应用的函数。上面这段说的是部分应用函数，不是偏函数。Spark SQL规则匹配应用使用的是偏函数
数仓面试——补充缺失日期和数据
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616963866?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
澄清 | snappy压缩到底支持不支持split? 为啥？
Call_me_Mr_P: 感谢科普，终于有个合理的答案了

大家在看

Google Play账号被封避坑指南：6大违规处置流程全解析 136

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小萝卜算子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。