hive
xiaoshanzhuzz
这个作者很懒,什么都没留下…
展开
-
hive
Hive倾斜 数据倾斜的原因 Hive倾斜的原因很大部分是由于sql中的join语句与group by语句。 原因:对于普通的join操作,会在map端根据key的hash值,shuffle到某一个reduce上去,在reduce端做join连接操作,内存中缓存join左边的表,遍历右边的表,依次做join操作。所以在做join操作时候,将数据量多的表放在join的右边。 当数据量比较大,并且key分布不均匀,大量的key都shuffle到一个reduce上了,就出现了数据的倾斜。 数据倾斜的优化 1.如原创 2020-08-17 09:33:10 · 109 阅读 · 0 评论 -
使用元数据操作hive
使用hive元数据查看 查询数据库 查看表 查看某个数据库下的表 查看分区 查看某个表的分区 查看某个表的列 使用元数据增加表 增加序列化使用的类信息 在SERDES这个表里增加一个SERDE_ID = 1216。 增加字段id 在CDS 这个表里增加一个字段CD_ID,与SDS表关联。 CDS CD_ID = 1093 增加关联字段 在sds表里增加信息 这里的SERDE_ID 和CD_ID都是需要先添加的。因为这个表的外表指定了。 增加字段 在columns_v2表里原创 2020-08-14 09:32:02 · 237 阅读 · 1 评论 -
hive增量数据处理
select * from (select *, row_number() over (partition by ${primary_key} order by updated desc) as updated_n from adata ) tmp where updated_n = 1 and (deleted is null or deleted != 1)原创 2020-08-03 09:39:34 · 540 阅读 · 0 评论