【Hive实战】Hive治理方向探讨（请留意见）

顧棟

已于 2024-07-05 14:35:24 修改

阅读量740

点赞数

分类专栏： Hive 文章标签： hive hadoop 数据仓库

于 2023-06-21 18:04:27 首次发布

本文链接：https://blog.csdn.net/weixin_43820556/article/details/131323745

版权

Hive治理方向探讨

全篇数据已20230618分区的数据为准

诉求： 能够更好的识别出临时表，对超期临时表进行删除程序。

内部表的分区表数量 99,709

内部表的非分区表数量 222,555

外部表的分区表数量 7,842

外部表的非分区表数量 719

表类型分布数量

hive分区数量分布情况

按时间（天）的维度进行计算分区数区间

时间区间	分区数区间	表数量	占比
半年（6个月）	[1,180]	29148	34.33%
1年	[181,365]	5914	6.96%
2年	[366,730]	12069	14.21%
3年	[731,1095]	12314	14.50%
5年	[1096,1825]	18476	21.76%
10年	[1826,3650]	5751	6.77%
20年	[3651,7300]	401	0.47%
30年	[7301,10950]	156	0.18%
30年以上	[10950,+∞]	687	0.81%
目前5年以上数据定义为存疑	[1826,+∞]	6995	8%

hive分区表的层级分布情况

超过2层分区级别的分区表

TBL_NAME	OWNER	PART_LEVEL

诉求： 识别出分区的数量和分区的层级，对数据异常的分区表（分区数量超过1826个，分区层级超过2层的）进行处理。

原则上分区层级不超过2层，单个表（1级分区）的最大分区数不超过2000，单个表（2级分区）的最大分区数不超过5000。

存储格式

INPUT_FORMAT分布情况

INPUT_FORMAT类	数量	占比
com.hadoop.mapred.DeprecatedLzoTextInputFormat	183962	0.220%
com.twitter.elephantbird.mapred.input.DeprecatedRawMultiInputFormat	7889	0.009%
org.apache.hadoop.hive.ql.io.orc.OrcInputFormat	29966343	35.902%
org.apache.hadoop.mapred.TextInputFormat	18777680	22.497%
org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat	67633	0.081%
************************************************************1	6252676	7.491%
org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat	2522173	3.022%
org.apache.hadoop.hive.ql.io.RCFileInputFormat	25427575	30.464%
org.elasticsearch.hadoop.hive.EsHiveInputFormat	3	-
org.apache.hadoop.mapred.SequenceFileInputFormat	15274	0.018%
************************************************************ 2	9643	0.012%
************************************************************ 3	2297	0.003%
************************************************************ 4	228137	0.273%
************************************************************ 5	3023	0.004%
	1982	0.002%

OUTPUT_FORMAT分布情况

OUTPUT_FORMAT类	数量	占比
org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat	25443778	30.485%
org.elasticsearch.hadoop.hive.EsHiveOutputFormat	4	0.000%
org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat	67633	0.081%
org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat	29966344	35.903%
org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat	15556	0.019%
org.apache.hadoop.hive.ql.io.IgnoreKeyTextOutputFormat	13356	0.016%
org.apache.hadoop.hive.ql.io.HiveNullValueSequenceFileOutputFormat	7889	0.009%
org.apache.hadoop.hive.ql.io.RCFileOutputFormat	25427575	30.465%
org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat	2522173	3.022%
	1982	-

分区的格式为空的内部表

TBL_NAME	OWNER	TBL_TYPE

格式为空的非分区的内部表

TBL_NAME	OWNER	TBL_TYPE

诉求：