- Impala是由Cloudera公司开发的新型的查询系统。
- Impala适用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询执行引擎,是一个开源软件,由C++和Java编写的。
- 和hadoop的SQL引擎比较,它提高了高性能和低延迟。
- 相比较Hive查询引擎来说,用户可以更快的使用SQL与HDFS和HBASE进行交互查询。
- Impala可以读取Hadoop使用的几乎所有的文件格式:Parquet,Avro,RDFile等
- 与Hive相比不同的还有,Impala不是基于MR算法,从而减少了MapReduce的延迟,所以使得Impala查询速度更加的快,比Hive快很多。
- Impala支持内存中的数据处理,它访问或者分析存储在Hadoop数据节点上的数据,而无需数据移动。
- Impala为HDFS中的数据提供了更快的访问。
- Impala使用的是Hive的元数据,ODBC驱动程序和SQL语法。
- Impala使用的与Hive相同的查询语言,元数据和用户界面。
- Impala是一个管理,分析存储在Hadoop上的数据的一个工具。
- Impala 的缺点是不提供任何对序列化和反序列化的支持,且只能读取文本文件,而不能读取二进制文件;每当新的记录或者文件被添加到HDFS中的数据目录时,该表需要被刷新。
- Hive适用的场景一般是跑批量数据,而Impala是实时交互场景更适用。
Impala学习笔记一
最新推荐文章于 2020-10-15 13:44:51 发布