hql处理json格式的文件

最新推荐文章于 2023-09-09 16:00:18 发布

小雨光

最新推荐文章于 2023-09-09 16:00:18 发布

阅读量421

点赞数

分类专栏：小练习文章标签： hive

本文链接：https://blog.csdn.net/weixin_44079636/article/details/118692587

版权

小练习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、需求

1：数据来源
    豆瓣电影的评分数据
2：数据含义
    {"movie":"电影id","rate":"打分"}
3：需求
    统计出评分最高的TOP5电影出来，按照评分降序排序。

二、给出的原数据

文件名：电影评分记录.json
数据：

{"movie":"1193","rate":"3.8"}
{"movie":"661","rate":"3.4"}
{"movie":"914","rate":"4.5"}
{"movie":"3408","rate":"6.7"}
{"movie":"2355","rate":"5"}
{"movie":"1197","rate":"1.2"}
{"movie":"1287","rate":"6.3"}
{"movie":"2804","rate":"8"}
{"movie":"594","rate":"4.3"}
{"movie":"919","rate":"7.8"}
{"movie":"595","rate":"4"}
{"movie":"938","rate":"4.4"}
{"movie":"2398","rate":"6.5"}
{"movie":"2918","rate":"4.7"}

三、hql内置了两个处理json数据的函数

//查看这两个函数的用法
desc function get_json_object
desc function json_tuple

在这里插入图片描述

四、使用这两个函数解决需求

1.创建表，并导入数据

--1.创建表
create table t_movie(
	json string
)row format delimited
--fields terminated by '' //如果 一行只有一个json就不用使用列分隔符了

--2.从Linux文件系统中导入数据到表中
load data local inpath '/opt/data/电影评分记录.json' into table t_movie 
--3.查询表中的函数
select * from t_movie

在这里插入图片描述
2.使用get_json_object实现

--方法1
select get_json_object(t.json,'$.movie') movie, get_json_object(t.json,'$.rate')  score
from t_movie t
order by (score) desc
limit 3

3.使用json_tuple实现

--方法2
select t2.* 
from t_movie t1 lateral view json_tuple(t1.json, 'movie', 'rate') t2 as movie, rate
order by (rate) desc
limit 3

//lateral view用于和split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。
//lateral view首先为原始表的每行调用UDTF，UTDF会把一行拆分成一或者多行，lateral view再把结果组合，产生一个支持别名表的虚拟表。

在这里插入图片描述

小雨光

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hql处理json格式的文件

一、需求1：数据来源豆瓣电影的评分数据2：数据含义 {"movie":"电影id","rate":"打分"}3：需求统计出评分最高的TOP5电影出来，按照评分降序排序。二、给出的原数据文件名：电影评分记录.json数据：{"movie":"1193","rate":"3.8"}{"movie":"661","rate":"3.4"}{"movie":"914","rate":"4.5"}{"movie":"3408","rate":"6.7"}{"movi
复制链接

扫一扫