Impala介绍
Impala是实时交互的大数据查询工具
智能的SQL查询
分布式的数据查询
实时的数据查询
Impala体系结构
Impalad:运行于集群中的每一个节点,负责读写文件及处理用户请求
Metastore:负责集群健康监控,节点协调等
Catalog:负责集群的数据字典服务及节点间的同步
Impala与Hive
Hive不是实时的
Impala不是Hadoop官方的,是Cloudera开发的开源组件
Impala跟Hive共用一套数据。
Hive里创建的表在Impala里默认看不到
Hive里的操作不会主动同步到Impala里。
通过Impala执行的DDL操作,可以实时同步到所有节点
Impala操作接口
Impala-shell
HUE
JDBC
Impala DML查询限制
不支持数据类型自动转换
一个SQL里只支持一个DISTINCT
支持非等值JOIN
删除内部表时,Hive会把HBase表一起删掉,而Impala不会。