hive函数

本文介绍了在Hive中处理不同类型数据格式的方法,包括从JSON格式转换为所需列,利用json_tuple和parse_url_tuple函数进行数据拆分,以及如何构建大宽表进行后续分析。此外,还提到了如何进行分组统计,例如按性别分组求年龄最大值的前两条记录。最后,简述了使用Beeline作为Hive的命令行客户端工具,以及如何配置和连接Hive服务。
摘要由CSDN通过智能技术生成

数据格式
text(文本格式):id,username,age,gender
json(json格式):{“id”:1,“username”:“ruozedata”,“age”,2,“gender”:“unknown”}

数据清洗
json==>拆成我们所需要的列(可能涉及到字段的扩充)
raw==>width 原始数据转成大宽表,后续需要的所有字段都准备完毕

json_tuple
创建一个只有一个string类型的字段的表来存放json数据

create table rating_json(json string);

加载数据后,使用json_tuple函数将json数据拆分

hive (ruozedata)> select json_tuple(json,'movie','rate','time','userid') 
                > as (movie_id,rate,time,user_id)  from rating_json limit 10;
OK
movie_id	rate	time	user_id
1193	5	978300760	1
661	    3	978302109	1
914	    3	978301968	1
3408	4	978300275	1
2355	5	978824291	1
1197	3	978302268	1
1287	5	978302039	1
2804	5	978300719	1
594	    4	978302268	1
919	    4	978301368	1
Time taken: 0.038 seconds, Fetched: 10 row(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值