Hadoop企业级应用之秒级查询Kudu+Impala

Apache Kudu是开源Apache Hadoop生态系统的新成员,它完善了Hadoop的存储层,可以快速分析快速数据

Apache Impala是CDH的集成部分,通过Cloudera Enterprise订阅支持,是Apache Hadoop的开源分析MPP数据库,可以提供最快的洞察时间

    在Kudu出现之前,Hadoop生态环境中的储存主要依赖HDFS和HBase,追求高吞吐批处理的用例中使用HDFS,追求低延时随机读取用例下用HBase,而Kudu正好能兼顾这两者:

•        Kudu的设计使它与众不同

o   快速处理OLAP(Online Analytical Processing)任务

o   集成MapReduce、Spark和其他Hadoop环境组件

o   与Impala高度集成,使得这成为一种高效访问交互HDFS的方法

o   强大而灵活的统一性模型

o   在执行同时连续随机访问时表现优异

o   通过Cloudera Manager可以轻松管理控制

o   高可用性,tablet server和master利用Raft Consensus算法保证节点的可用

o   结构数据模型

•       常见的应用场景

o   刚刚到达的数据就马上要被终端用户使用访问到

o   同时支持在大量历史数据中做访问查询和某些特定实体中需要非常快响应的颗粒查询

o   基于历史数据使用预测模型来做实时的决定和刷新

o   要求几乎实时的流输入处理

•       Kudu+Impala集成功能

o  CREATE/ALTER/DROP TABLE

     Impala支持使用Kudu作为持久层创建,更改和删除表。这些表遵循与Impala中其他表相同的内部/外部方法,允许灵活的数据提取和查询。

o   INSERT

    可以使用与任何其他Impala表相同的语法将数据插入Impala中的Kudu表,例如使用HDFS或HBase进行持久化的表。

o   UPDATE / DELETE

    Impala支持UPDATE和DELETESQL命令逐行或批量修改Kudu表中的现有数据。选择SQL命令的语法与现有标准尽可能兼容。除了simple DELETE 或UPDATE命令之外,还可以使用FROM子查询中的子句指定复杂连接。

o   灵活的分区

    与Hive中的表分区类似,Kudu允许通过散列或范围动态地将表预分割为预定义数量的节点,以便在集群中均匀分配写入和查询。可以按任意数量的主键列,任意数量的哈希值和可选的拆分行列表进行分区。

o   并行扫描

    为了在现代硬件上实现最高性能,Impala使用的Kudu客户端课在多台节点上并行扫描。

o   高效查询

    在可能的情况下,Impala将谓词评估推送到Kudu,以便尽可能接近数据评估谓词。在许多工作负载中,查询性能与Parquet相当。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智扬信达

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值