Impala实践之十:impala最佳实践(转、译、整理)

本文介绍了Impala的一些最佳实践,包括Impala不使用数据缓存,但缓存元数据;SELECT查询失败可能是由于内存、网络或节点问题,INSERT失败可能与HDFS限制有关;内存管理中,当数据集超出内存,查询会被取消,内存密集型操作如动态分区INSERT、GROUP BY和宽表查询可能导致内存超出;Impala适合交互式分析,不依赖MapReduce,适用于非流处理的复杂事件分析;Impala与Hive互操作,所有查询均可在Hive执行,但需要注意SQL方言和权限配置。
摘要由CSDN通过智能技术生成

前言

最近在看impala原理时候翻出来的一些tip,帮助更好地使用impala,自己整理一下。

0x01 杂项

1. Impala 使用缓存吗?

Impala 不会缓存数据,但它缓存一些表和文件的元数据。尽管因为数据集被缓存到 OS 的缓冲区中,接下来的重复查询可能运行的更快,Impala 不会明确的控制这些。

0x02 Impala任务失败

1. 为什么 SELECT 查询会失败?

当一个 SELECT 语句失败了,原因通常是以下类别之一:

  • 因为性能、容量、或网络问题影响了特定的节点导致的超时
  • 连接查询的过多内存数用,这一查询的结果会自动取消
  • 处理查询中特定的 WHERE 子句时,影响到每一节点上本地代码如何生成的底层问题。例如,特定节点上可能会生成它的处理器不支持的机器指令。假如日志中的错误信息猜测是无效指令(illegal instruction),考虑临时关闭生成本地代码,并重试这个查询
  • 异常的输入数据,例如包含一个巨大的长行的文本数据文件(a text data file with an enormously long line),或者使用了没有在 CREATE TABLE 语句中 FIELDS TERMINATED BY 子句中设置的分隔符(or with a delimiter that does not match the character specified in the FIELDS TERMINATED BY clause of the CREATE TABLEstatement)
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值