hive3

懒得幽默

已于 2022-04-05 19:55:42 修改

阅读量1.6k

点赞数

文章标签： hive

于 2022-04-05 16:36:13 首次发布

本文链接：https://blog.csdn.net/weixin_44374374/article/details/123969766

版权

本文详细探讨了Hive3中的多级分区创建及HDFS目录观察，讲解了lateral view的平铺数据和解析数组功能。对比分析了json_tuple和get_json_object的性能差异，以及group_concat、concat_ws和wm_concat在聚合数据拼接上的区别。同时，阐述了collect_list和collect_set的区别，创建分隔符为$%#的表，并展示了grouping set和cube语法的应用。还介绍了Hive的内置函数，包括日期函数和分区表的逻辑设计。

摘要由CSDN通过智能技术生成

作业：

1.自己建立多级分区，并观察hdfs上的目录

CREATE TABLE `sqq.emp_pars`(
  `empno` decimal(4,0), 
  `ename` varchar(10), 
  `job` varchar(9), 
  `mgr` decimal(4,0), 
  `hiredate` date, 
  `sal` decimal(7,2), 
  `comm` decimal(7,2), 
  `deptno` decimal(2,0))
PARTITIONED BY ( 
  `year` string, 
  `mounth` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ( 
  'field.delim'='\t', 
  'serialization.format'='\t') 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://sqq:9000/user/hive/warehouse/sqq.db/emp_pars'
TBLPROPERTIES (
  'bucketing_version'='2', 
  'transient_lastDdlTime'='1649141922');


insert into table emp_pars partition(year='2022',mounth='04')
     select * from emp

2.lateral view的用法

平铺数据，解析数组

select case when phone is not null then phone else '000000' end as phone
from json
LATERAL VIEW json_tuple(line,'phone') t as phone

3.json_tuple和get_json_object的区别，尤其是性能方面

select json_tuple(line,'ceo','company','address','phone')
as (ceo,company,address,phone)
from json

select get_json_object(line,'$.ceo') as ceo,
get_json_object(line,'$.company') as company,
get_json_object(line,'$

最低0.47元/天解锁文章

懒得幽默

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫