HQL命令的底层执行逻辑解析
文章平均质量分 92
该专栏主要介绍,各HQL命令的底层执行逻辑,例如数据在Map、Reduce阶段的划分、流向、排序等。
张之海
硕士毕业于东北大学,现就职于北京某猫头鹰公司,大数据工程师职位。
展开
-
各SQL引擎的SQL转换过程对比
SQL引擎有许多,例如HiveSQL、PrestoSQL、SparkSQL、FlinkSQL、ClickhouseSQL,这些引擎将从SQL语句转换为执行计划的过程,各自有什么特点、共同点、区别,本文将进行详述。原创 2023-05-03 13:16:03 · 879 阅读 · 1 评论 -
MapReducer底层全过程解析
1 Mapper阶段输入2 Mapper阶段计算3 Mapper阶段输出参考文献:[1] Mapper阶段的输出之MapOutputBuffer、环形缓冲区工作原理原创 2021-07-02 11:03:42 · 227 阅读 · 0 评论 -
HQL调优实操1 —— reduce卡住
1 问题任务执行缓慢。卡顿日志如下:2021-07-01 10:19:04 log INFO - Starting Job = job_1625097332819_16902, Tracking URL = http://c2-xxx-hadoopxxx.bj:8088/proxy/application_xxxxxxxx_16902/2021-07-01 10:19:04 log INFO - Kill Command = /opt/cloudera/parcels/CDH/lib/hadoop/b原创 2021-07-01 18:21:04 · 286 阅读 · 0 评论 -
HQL底层原理及优化:1 干预SQL的运行方式 之1.2通过Hint对计算引擎执行过程进行干预
Hint,意为提示。1 Hint简介本小节参考自文章Oracle hint详解中的一部分,感谢原作者的分享。1.1 为什么引入Hint?Hint是Oracle数据库中很有特色的一个功能,是很多DBA优化中经常采用的一个手段。那为什么Oracle会考虑引入优化器呢?基于代价的优化器是很聪明的,在绝大多数情况下它会选择正确的优化器,减轻DBA的负担。但有时它也聪明反被聪明误,选择了很差的执行...原创 2020-04-20 12:52:20 · 447 阅读 · 0 评论 -
Hive去重:distinct与group by
Hive对数据去重有两种方法:(1) distinct (2) group by本文介绍distinct、group by在去重时底层的执行逻辑、数据处理原理,并介绍在不同场景下,应采用哪种方法去重。原创 2020-06-02 17:07:30 · 2354 阅读 · 3 评论