Impala 基本架构与基础知识 (复习)

故事写在心里-

已于 2022-02-20 15:37:06 修改

阅读量355

点赞数

分类专栏： impala 知识体系文章标签：架构 big data hadoop

于 2022-02-20 15:36:45 首次发布

本文链接：https://blog.csdn.net/weixin_46163590/article/details/123031157

版权

impala 知识体系专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录:

什么是Impala ？

Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。

特点：

Impala提供了快速的、交互式的SQL查询，直接对存储在HDFS、HBase或

Amazon Simple Storage Service (S3)。除了使用统一存储平台外，Impala还使用
与Apache Hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动、用户界面(Hue中的Impala查询UI)。这为实时或面向批处理的查询提供了熟悉的统一平台。

Impala是一款用于查询大数据的附加工具。Impala不替代批处理基于MapReduce的框架，如Hive。Hive和其他构建在MapReduce上的框架是最适合的长时间运行的批处理作业，例如涉及Extract、Transform和Load (ETL)类型作业的批处理。

注:Impala于2017年11月15日毕业于Apache孵化器。在文档的地方前身为“Cloudera Impala”，现在的正式名称为“Apache Impala”。

Impala 优点:

Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。
省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢（默认每个心跳间隔是3秒钟），Impala直接通过相应的服务进程来进行作业调度，速度快了很多。
Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式，而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶，因此可做更多的查询优化，从而省掉不必要的shuffle、sort等开销。
通过使用LLVM来统一编译运行时代码，避免了为支持通用编译而带来的不必要开销。
用C++实现，做了很多有针对性的硬件优化，例如使用SSE指令。

Impala核心组件角色：

Impala Daemon
Impala的核心组件是运行在各个节点上面的impalad这个守护进程（Impala daemon），它负责读写数据文件，接收从impala-shell、Hue、JDBC、ODBC等接口发送的查询语句，并行化查询语句和分发工作任务到Impala集群的各个节点上，同时负责将本地计算好的查询结果发送给协调器节点（coordinator node）。

你可以向运行在任意节点的Impala daemon提交查询，这个节点将会作为这个查询的协调器（coordinator node），其他节点将会传输部分结果集给这个协调器节点。由这个协调器节点构建最终的结果集。在做实验或者测试的时候为了方便，我们往往连接到同一个Impala daemon来执行查询，但是在生产环境运行产品级的应用时，我们应该循环（按顺序）的在不同节点上面提交查询，这样才能使得集群的负载达到均衡。

Impala daemon不间断的跟statestore进行通信交流，从而确认哪个节点是健康的能接收新的工作任务。它同时接收catalogd daemon（从Impala 1.2之后支持）传来的广播消息来更新元数据信息，当集群中的任意节点create、alter、drop任意对象、或者执行INSERT、LOAD DATA的时候触发广播消息。

Impala Statestore
Impala Statestore检查集群各个节点上Impala daemon的健康状态，同时不间断地将结果反馈给各个Impala daemon。这个服务的物理进程名称是statestored，在整个集群中我们仅需要一个这样的进程即可。如果某个Impala节点由于硬件错误、软件错误或者其他原因导致离线，statestore就会通知其他的节点，避免其他节点再向这个离线的节点发送请求。

由于statestore是当集群节点有问题的时候起通知作用，所以它对Impala集群并不是有关键影响的。如果statestore没有运行或者运行失败，其他节点和分布式任务会照常运行，只是说当节点掉线的时候集群会变得没那么健壮。当statestore恢复正常运行时，它就又开始与其他节点通信并进行监控。

Impala Catalog
Imppalla catalog服务将SQL语句做出的元数据变化通知给集群的各个节点，catalog服务的物理进程名称是catalogd，在整个集群中仅需要一个这样的进程。由于它的请求会跟statestore daemon交互，所以最好让statestored和catalogd这两个进程在同一节点上。

Impala 1.2中加入的catalog服务减少了REFRESH和INVALIDATE METADATA语句的使用。在之前的版本中，当在某个节点上执行了CREATE DATABASE、DROP DATABASE、CREATE TABLE、ALTER TABLE、或者DROP TABLE语句之后，需要在其它的各个节点上执行命令INVALIDATE METADATA来确保元数据信息的更新。同样的，当你在某个节点上执行了INSERT语句，在其它节点上执行查询时就得先执行REFRESH table_name这个操作，这样才能识别到新增的数据文件。需要注意的是，通过Impala执行的操作带来的元数据变化，有了catalog就不需要再执行REFRESH和INVALIDATE METADATA，但如果是通过Hive进行的建表、加载数据，则仍然需要执行REFRESH和INVALIDATE METADATA来通知Impala更新元数据信息。

支持的平台：

Impala 目前仅支持 Linux。Impala 支持 x86_64 并为 arm64 提供实验性支持（从 Impala 4.0 开始）。

在这里插入图片描述

故事写在心里-

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Impala 基本架构与基础知识 (复习)

文章目录:什么是Impala ？特点：Impala 优点:Impala核心组件角色：支持的平台：什么是Impala ？Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。它是一个用C ++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。特点：Impala提供了快速的、交互式的SQL查询，直接对存储在HDFS、HBase或Amazon Simple Storage Service (S3)。除了使用统一存储平台
复制链接

扫一扫

专栏目录