impala学习笔记之一(转载总结)转载自网上内容 ,并非原创,impala简介

Impala是 Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在 Hadoop的HDFS和Hbase中的PB级大数据。 Impala1l.0版比原来基于 Mapreduce I的 Hive SQL查询速度提升3~90倍,因此,Impala有可能完全取代 Hive,成为一种类SQL语法的分析查询技术。

 

Impala是为了在 Hadoop上实现低延迟的SQL查询而设计开发的,它原生地运行在Hadoop,/ Hbase存储系统和元数据之上,因此它继承了 Hadoop的灵活性、伸缩性和经济性,具有分布式本地化处理的特性以避免网络瓶颈,基于工业标准的SQL接口兼容。它支持交互式SQL,Hive快很多倍

 

Impala是 Hadoop生态圈中不可或缺的一个环节,它提供SOL语义,能够对HDFS和 Hbase中的PB级大数据进行交互式实时查询,从而弥补了Hive批处理的不足

 

impala立足于内存计算,从多迭代实时批量处理出发,兼顾数据仓库,是大数据系统领域的基于内存和SQL的快速处理分析计算平台,基于内存的分析技术这一点是非常重要的。

大数据应用的日渐增多许多领域带来了积极变化。基于 Hadoop的离线计算提供了强大的数据处理能力,但由于Hive底层执行使用的是 Mapreduce引擎,仍然是个批处理过程,因此难以满足查询的交互性要求。能否有一项技术兼顾DBMS/ Hadoop的混合优势呢? Cloudera公司主导开发的 Impala应运而生。有测试表明, Impala的性能较Hive提高了3~90倍

 

impala的本质是Hadoop生态系统中的实时查询分析引擎,impala这个词是羚羊的意思,用这个动物命名意在强调其灵敏性和快速性。

impala能干啥:Impala作为基于 Hadoop的实时计算技术可以直接通过BI产品进行展现,进行数据的查询和展示。

 Hadoop的技术解决了传统数据库无法线性扩展的问题。 Hadoop不能称之为“数据库”,也不能简单地称之为“应用”,而是介于数据库和应用之间的一种既能用于存储和处理数据,又能处理应用业务逻辑的一个混合体,我们通常称之为“数据平台”。 Hadoop虽在本质上解决了磁盘IO的扩展问题,但同时由于其基于磁盘(自Hadoop2.3起支持缓存特性),因此对于某些实时性要求更高的任务无能为力, Impala及其他的基于内存的运算技术应运而生。Impala的存储基于HDFS,运算基于表的统计信息生成执行计划,具备资源管理功能,是最像传统数据库的大数据技术。

 

impala和mapreduce的本质区别:Mapreduce非常适合用于批处理操作,对实时查询却无能为力。为了解决查询速度的问题,Cloudera开发了査询引擎: Impala。它抛弃了 Mapreduce使用更类似于传统的MPP数据库技术,大大提高了查询的速度。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值