一、Hive on Tez概述
### --- Hive on Tez
~~~ Hortonworks在2014年左右发布了Stinger Initiative,
~~~ 并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。
~~~ 让Hive的查询功能更强大。增加类似OVER子句的分析功能,支持WHERE子查询,
~~~ 以及调整Hive的样式系统更多的符合标准的SQL模型;
~~~ 优化Hive的请求执行计划,增加 Task 每秒处理记录的数量;
~~~ 引入新的列式文件格式(ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据;
~~~ 引入新的runtime框架——Tez,消除Hive的延迟以及吞吐量限制。
~~~ Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job;
### --- Tez概述
~~~ Tez是Apache开源的支持DAG(有向无环图)作业的计算框架,是支持Hadoop 2.x的重要引擎。
~~~ 它源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,
~~~ 分解后的元操作可以任意灵活组合,产生新的操作,
~~~ 这些操作经过一些控制程序组装后,可形成一个大的DAG作业。
二、Tez将Map task和Reduce task进一步拆分为如下图所示:
三、Tez的task由Input、processor、output阶段组成,可以表达所有复杂的map、reduce操作,如下图:
~~~ Tez可以将多个有依赖的作业转换为一个作业(只需写一次HDFS,中间环节较少),
~~~ 从而大大提升DAG作业的性能。Tez已被Hortonworks用于Hive引擎的优化,
~~~ 经测试一般小任务比Hive MR 的2-