Impala学习笔记一

最新推荐文章于 2020-10-15 13:44:51 发布

静静的程序猿进化史

最新推荐文章于 2020-10-15 13:44:51 发布

阅读量124

点赞数

分类专栏： Impala

本文链接：https://blog.csdn.net/weixin_44912627/article/details/108377987

版权

Impala 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    Impala是由Cloudera公司开发的新型的查询系统。
Impala适用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询执行引擎，是一个开源软件，由C++和Java编写的。
和hadoop的SQL引擎比较，它提高了高性能和低延迟。
相比较Hive查询引擎来说，用户可以更快的使用SQL与HDFS和HBASE进行交互查询。
Impala可以读取Hadoop使用的几乎所有的文件格式：Parquet，Avro，RDFile等
与Hive相比不同的还有，Impala不是基于MR算法，从而减少了MapReduce的延迟，所以使得Impala查询速度更加的快，比Hive快很多。
Impala支持内存中的数据处理，它访问或者分析存储在Hadoop数据节点上的数据，而无需数据移动。
Impala为HDFS中的数据提供了更快的访问。
Impala使用的是Hive的元数据，ODBC驱动程序和SQL语法。
Impala使用的与Hive相同的查询语言，元数据和用户界面。
Impala是一个管理，分析存储在Hadoop上的数据的一个工具。
Impala 的缺点是不提供任何对序列化和反序列化的支持，且只能读取文本文件，而不能读取二进制文件；每当新的记录或者文件被添加到HDFS中的数据目录时，该表需要被刷新。
Hive适用的场景一般是跑批量数据，而Impala是实时交互场景更适用。

                

静静的程序猿进化史

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Impala学习笔记一

Impala是由Cloudera公司开发的新型的查询系统。Impala适用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询执行引擎，是一个开源软件，由C++和Java编写的。和hadoop的SQL引擎比较，它提高了高性能和低延迟。相比较Hive查询引擎来说，用户可以更快的使用SQL与HDFS和HBASE进行交互查询。Impala可以读取Hadoop使用的几乎所有的文件格式：Parquet，Avro，RDFile等与Hive相比不同的还有，Impala不是基于MR算法，.
复制链接

扫一扫

专栏目录