Apache Impala总结

Apache Impala是一个基于Hive的内存计算系统,提供高速的SQL查询功能。本文介绍了Impala的组件、部署注意事项、常见问题及内存溢出解决方案。优化点包括分区管理、查询设计、使用Parquet格式和元数据操作。对于内存溢出,可以通过启用“SQL Operations that Spill to Disk”功能缓解。此外,建议控制查询并发度和合理选择数据存储格式来提升性能。
摘要由CSDN通过智能技术生成

Impala

​ 基于hive,使用内存计算,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。Impala适合用来处理输出数据适中或比较小的查询。

组件简绍

Impala Statestore :检查集群各个节点上Impala daemon的健康状态,同时不间断地将结果反馈给各个Impala daemon

Impala Catalog :分发hive 的元数据信息到 Impala Daemon,接收来自Statestore的所有请求,一个集群中只需要 一个节点上有这个守护进程,

Impala Daemon :Impalad接收client请求,负责读写数据文件,基于内存运行Sql

部署注意事项:

​ 如果Impalad与 Catalog安装到一块,当内存消耗很大时会影响元数据的同步,因此要部署到不同的机器上,Catalog与StateStore 需要进行通信,所以最好部署到同一机器

常遇问题:

1.内存消耗过大导致分析任务异常的BUG

2.impala通常与MR等离线任务运行在一个集群上, 通过YARN统一管理资源, 如何同时满足交互式查询和离线查询两种需求具有较大挑战性。 YARN通过全局唯一的Resource Mananger调度资源, 好处是RM拥有整个集群全局信息,能做出更好调度决策, 缺点是资源分配的性能不足。 Impala每个查询都需要分配资源, 当每秒查询数上千时, YARN资源分配的响应时间变的很长, 影响到查询性能。

3.一个用户执行大量的insert操作,其实这些任务本身是能正常执行的,但是当这种任务大量地执行时,很有可能会对整个集群的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值