数据格式
text(文本格式):id,username,age,gender
json(json格式):{“id”:1,“username”:“ruozedata”,“age”,2,“gender”:“unknown”}
数据清洗
json==>拆成我们所需要的列(可能涉及到字段的扩充)
raw==>width 原始数据转成大宽表,后续需要的所有字段都准备完毕
json_tuple
创建一个只有一个string类型的字段的表来存放json数据
create table rating_json(json string);
加载数据后,使用json_tuple函数将json数据拆分
hive (ruozedata)> select json_tuple(json,'movie','rate','time','userid')
> as (movie_id,rate,time,user_id) from rating_json limit 10;
OK
movie_id rate time user_id
1193 5 978300760 1
661 3 978302109 1
914 3 978301968 1
3408 4 978300275 1
2355 5 978824291 1
1197 3 978302268 1
1287 5 978302039 1
2804 5 978300719 1
594 4 978302268 1
919 4 978301368 1
Time taken: 0.038 seconds, Fetched: 10 row(