前言
由于前期大家使用Impala的时候都比较随意,再加上对Impala的原理不清楚,因此在使用的过程中对Impala带来了很大的压力。
经过前段时间的研究和实验。我整理了一份Impala使用文档,供组内小伙伴使用。
概述
针对大数据集群Impala组件的使用说明。包括使用原则、建议和规范。以下所有建议均建立在日常使用过程中总结的经验和实际测试结果之上。若有问题,请联系文档发布者。
读者对象
- 平台数据开发人员
- 平台数据分析人员
- 数据挖掘研发人员
元数据操作规范
总体说明:
只有通过hdfs增加或删除分区中文件后,才需要人为更新元数据,其余情况依赖impala自带更新机制即可。
通过hdfs增加或删除分区中文件后一律使用refresh tablename操作,性能损耗最低。
日常查询操作一律不加-r参数。如果出现提示元数据过期(该提示为目前版本bug,不必理会),可断开重连或者使用refresh操作。
注意: 如果在同一个shell脚本中,先执行了ddl操作,然后又对相应的库执行查询,会出现元数据同步延迟导致无法读取信息的操作。
refresh [tablename](部分操作使用)
使用场景:
- 通过HDFS添加或删除分区下文件
使用规范:
通过hdfs在分