impala学习笔记之一(转载总结)转载自网上内容，并非原创，impala简介

最新推荐文章于 2021-01-12 11:32:39 发布

brave_zhao

最新推荐文章于 2021-01-12 11:32:39 发布

阅读量187

点赞数

分类专栏：大数据

原文链接：www.baidu.com

版权

大数据专栏收录该内容

62 篇文章 0 订阅

订阅专栏

Impala是 Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在 Hadoop的HDFS和Hbase中的PB级大数据。 Impala1l.0版比原来基于 Mapreduce I的 Hive SQL查询速度提升3~90倍,因此,Impala有可能完全取代 Hive，成为一种类SQL语法的分析查询技术。

Impala是为了在 Hadoop上实现低延迟的SQL查询而设计开发的,它原生地运行在Hadoop,/ Hbase存储系统和元数据之上,因此它继承了 Hadoop的灵活性、伸缩性和经济性,具有分布式本地化处理的特性以避免网络瓶颈，基于工业标准的SQL接口兼容。它支持交互式SQL,Hive快很多倍

Impala是 Hadoop生态圈中不可或缺的一个环节,它提供SOL语义,能够对HDFS和 Hbase中的PB级大数据进行交互式实时查询,从而弥补了Hive批处理的不足

impala立足于内存计算，从多迭代实时批量处理出发,兼顾数据仓库,是大数据系统领域的基于内存和SQL的快速处理分析计算平台，基于内存的分析技术这一点是非常重要的。

大数据应用的日渐增多许多领域带来了积极变化。基于 Hadoop的离线计算提供了强大的数据处理能力,但由于Hive底层执行使用的是 Mapreduce引擎,仍然是个批处理过程,因此难以满足查询的交互性要求。能否有一项技术兼顾DBMS/ Hadoop的混合优势呢? Cloudera公司主导开发的 Impala应运而生。有测试表明, Impala的性能较Hive提高了3~90倍

impala的本质是Hadoop生态系统中的实时查询分析引擎，impala这个词是羚羊的意思，用这个动物命名意在强调其灵敏性和快速性。

impala能干啥：Impala作为基于 Hadoop的实时计算技术可以直接通过BI产品进行展现,进行数据的查询和展示。

Hadoop的技术解决了传统数据库无法线性扩展的问题。 Hadoop不能称之为“数据库”,也不能简单地称之为“应用”,而是介于数据库和应用之间的一种既能用于存储和处理数据,又能处理应用业务逻辑的一个混合体,我们通常称之为“数据平台”。 Hadoop虽在本质上解决了磁盘IO的扩展问题,但同时由于其基于磁盘(自Hadoop2.3起支持缓存特性),因此对于某些实时性要求更高的任务无能为力, Impala及其他的基于内存的运算技术应运而生。Impala的存储基于HDFS,运算基于表的统计信息生成执行计划,具备资源管理功能,是最像传统数据库的大数据技术。

impala和mapreduce的本质区别：Mapreduce非常适合用于批处理操作,对实时查询却无能为力。为了解决查询速度的问题,Cloudera开发了査询引擎: Impala。它抛弃了 Mapreduce使用更类似于传统的MPP数据库技术,大大提高了查询的速度。

brave_zhao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
impala学习笔记之一(转载总结)转载自网上内容，并非原创，impala简介

Impala是 Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在 Hadoop的HDFS和Hbase中的PB级大数据。 Impala1l.0版比原来基于 Mapreduce I的 Hive SQL查询速度提升3~90倍,因此,Impala有可能完全取代 Hive，成为一种类SQL语法的分析查询技术。Impala是为了在 Hadoop上实现低延迟的SQL查询而设计...
复制链接

扫一扫