hql处理json格式的文件

一、需求

1:数据来源
    豆瓣电影的评分数据
2:数据含义
    {"movie":"电影id","rate":"打分"}
3:需求
    统计出评分最高的TOP5电影出来,按照评分降序排序。

二、给出的原数据

文件名:电影评分记录.json
数据:

{"movie":"1193","rate":"3.8"}
{"movie":"661","rate":"3.4"}
{"movie":"914","rate":"4.5"}
{"movie":"3408","rate":"6.7"}
{"movie":"2355","rate":"5"}
{"movie":"1197","rate":"1.2"}
{"movie":"1287","rate":"6.3"}
{"movie":"2804","rate":"8"}
{"movie":"594","rate":"4.3"}
{"movie":"919","rate":"7.8"}
{"movie":"595","rate":"4"}
{"movie":"938","rate":"4.4"}
{"movie":"2398","rate":"6.5"}
{"movie":"2918","rate":"4.7"}

三、hql内置了两个处理json数据的函数

//查看这两个函数的用法
desc function get_json_object
desc function json_tuple

在这里插入图片描述
在这里插入图片描述

四、使用这两个函数解决需求

1.创建表,并导入数据

--1.创建表
create table t_movie(
	json string
)row format delimited
--fields terminated by '' //如果 一行只有一个json就不用使用列分隔符了

--2.从Linux文件系统中导入数据到表中
load data local inpath '/opt/data/电影评分记录.json' into table t_movie 
--3.查询表中的函数
select * from t_movie 

在这里插入图片描述
2.使用get_json_object实现

--方法1
select get_json_object(t.json,'$.movie') movie, get_json_object(t.json,'$.rate')  score
from t_movie t
order by (score) desc
limit 3

3.使用json_tuple实现

--方法2
select t2.* 
from t_movie t1 lateral view json_tuple(t1.json, 'movie', 'rate') t2 as movie, rate
order by (rate) desc
limit 3

//lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
//lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值