Tez安装和使用(Hive on Tez)

Hive on Tez



Hortonworks在2014年左右发布了Stinger Initiative,并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。

  • 让Hive的查询功能更强大。增加类似OVER子句的分析功能,支持WHERE子查询,以及调整Hive的样式系统更多的符合标准的SQL模型;
  • 优化Hive的请求执行计划,增加 Task 每秒处理记录的数量;
  • 引入新的列式文件格式(ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据;
  • 引入新的runtime框架——Tez,消除Hive的延迟以及吞吐量限制。Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job;

2.1、Tez概述

Tez是Apache开源的支持DAG(有向无环图)作业的计算框架,是支持Hadoop 2.x的重要引擎。它源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业。
在这里插入图片描述
Tez将Map task和Reduce task进一步拆分为如下图所示:
在这里插入图片描述
Tez的task由Input、processor、output阶段组成,可以表达所有复杂的map、reduce操作,如下图:
在这里插入图片描述
Tez可以将多个有依赖的作业转换为一个作业(只需写一次HDFS,中间环节较少),从而大大提升DAG作业的性能。Tez已被Hortonworks用于Hive引擎的优化,经测试一般小任务比Hive MR 的2-3倍速度左右,大任务7-10倍左右,根据情况不同可能不一样。
在这里插入图片描述
hive启动时

Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. 
Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.

Tez+Hive仍采用 MapReduce 计算框架,但对DAG的作业依赖关系进行了裁剪,并将多个小作业合并成一个大作业,不仅减少了计算量,而且写HDFS次数也大大减少。

2.2、安装部署

1、下载软件包:apache-tez-0.9.2-bin.tar.gz
2、解压缩

[root@linux122 software]# tar -zxvf apache-tez-0.9.2-bin.tar.gz -C ../servers/
[root@linux122 software]# cd ../servers/apache-tez-0.9.2-bin/share/

3、将tez的压缩包放到到hdfs上

hdfs dfs -mkdir -p /user/tez 
[root@linux122 share]# hdfs dfs -put tez.tar.gz /user/tez

4、$HADOOP_HOME/etc/hadoop/ 下创建 tez-site.xml 文件,做如下配置:

<?xml version="1.0" encoding="utf-8"?>

<configuration> 
  <!-- 指定在hdfs上的tez包文件 -->  
  <property> 
    <name>tez.lib.uris</name>  
    <value>hdfs://linux121:9000/user/tez/tez.tar.gz</value> 
  </property> 
</configuration>

保存后将文件复制到集群所有节点

[root@linux122 hadoop]# scp tez-site.xml linux121:$PWD
[root@linux122 hadoop]# scp tez-site.xml linux123:$PWD

5、增加客户端节点的配置(/etc/profile)

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=/opt/lagou/servers/tez/*:/opt/lagou/servers/tez/lib/*
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH

注意:在哪台机器中配置就需要在哪台上执行hive(也可以所有集群都设置)
6、Hive设置Tez执行

hive> set hive.execution.engine=tez;

执行脚本报如下错误

select app_v,count(*) from dws.dws_member_start_week group by app_v limit 5;

在这里插入图片描述
yarn-site.xml中添加如下设置:
增加yarn.scheduler.minimum-allocation-mb 数量,从缺省1024改为2048;上述运行问题即刻得到解决;

单独调整yarn.nodemanager.vmem-pmem-ratio从缺省值2.1调整到3.0,从计算上Vm=3.0*1=3.0>2.6 ,但是上述问题依然存在(原因?)

原因:
该错误是YARN的虚拟内存计算方式导致,上例中用户程序申请的内存为1Gb,YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的值,当YARN计算的用户程序所需虚拟内存值大于计算出来的值时,就会报出以上错误。调节比例值可以解决该问题。具体参数为:yarn-site.xml中的yarn.nodemanager.vmem-pmem-ratio

<!--设置执行内存 -->
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>3072</value>
    <description>default value is 1024</description>
 </property>
<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>3.0</value>
    <description>default value is 2.1</description>
 </property>

执行结果:
在这里插入图片描述

7、如果想默认使用Tez,可在$HIVE_HOME/conf目录下hive-site.xml 中增加
一般根据项目组规定决定,通常用上面第6步 设置参数(较为灵活)

<property> 
	<name>hive.execution.engine</name> 
	<value>tez</value> 
</property>
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值