impala
原理和基本使用
提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。
是CDH平台首选的PB级大数据实时查询分析引擎。
相互配合体现在:Hive做数据的预处理,然后impala做实时数据查询
Impala的优缺点
Impala的组成
Impalad:本来都是普通的impalad进程,当接收用户请求时,就变成了Coordinator协调者,针对这次请求,他就负责后续的协调处理,接收请求, 编译查询计划树,调用其他的impalad进行数据的查询
State store:状态存储,当在多个机器上部署impala的时候,保存每个impalad的健康状况以及它们的位置信息 ,impalad会和state store进行心跳感应,汇报信息,我是成功的还是失败的,每个impalad上都会缓存一份状态存储的信息,方便后