hive 统计分析相关ANALYZE

1.前言

本文大部分是对于官方问的那个的理解,小部分是自己的测试感受
官方文档地址

https://cwiki.apache.org/confluence/display/Hive/StatsDev

ANALYZE 这个命令接触的不多,今天专门研究学习下

2、目的

见名知意,它的目的就是为了统计和分析的作用,它将统计的信息存储到metastore中,后续再来查询的时候就不需要在执行查询计算,而是直接获取即可

3、范围

统计信息支持新建的和现有的表,支持分区表和普通表的统计信息 以及列统计信息

4、ANALYZE相关

1、表统计

表统计的信息包括:行数,文件数,大小(以字节为单位)

  • 1、hive 是默认自动收集统计信息,由hive.stats.autogather 配置参数决定,默认是true。但是对于load data 方式是不支持的。(想一下也可以知道,他应该是在计算的时候去计算出这些统计信息)

-注意:这个在hive中是自动收集的。在sparkThriftserver中并不适用,虽然用的hive的元数据信息,但是它们两个在这方面不相通。

  • 2、手动收集。我们这边也可以指定手动收集,手动收集的指令为

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], …)]
COMPUTE STATISTICS
[FOR COLUMNS] – (Note: Hive 0.10.0 and later.)
[CACHE METADATA] – (Note: Hive 2.1.0 and later.)
[NOSCAN];

其中如果指定了NOSCAN的话,该命令将不会去扫描文件,仅会收集文件数和文件大小的信息

  • 3、查看表的统计信息

desc formatted tableName

2、列统计

相关文档

https://cwiki.apache.org/confluence/display/Hive/Column+Statistics+in+Hive

  • 1、在表信息的基础上进行了扩展,可以对列信息进行统计,命令为

analyze table t [partition p] compute statistics for [columns c,…];

  • 2、查看列信息统计的命令为

describe formatted [table_name] [column_name];

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值