一、Hive的安装部署
Hive的安装及部署
-
上传安装包到指定目录
-
解压安装包到/usr/apps/hive目录下面
tar -zxvf apache-hive-2.3.7-bin.tar.gz -C /usr/apps/hive/
-
修改/usr/apps/hive/目录下的apache-hive-2.3.7-bin为hive-2.3.7
mv apache-hive-2.3.7-bin hive-2.3.7
-
修改/usr/apps/hive/hive-2.3.7/conf目录下的hive-env.sh.template为 hive-env.sh
mv hive-env.sh.template hive-env.sh
-
配置hive-env.sh文件
# 配置HADOOP_HOME路径 export HADOOP_HOME=/usr/apps/hadoop/hadoop-2.10.0 # 配置HIVE_CONF_DIR路径 export HIVE_CONF_DIR=/usr/apps/hive/hive-2.3.7/conf
-
配置/etc/profile文件
# hive export HIVE_HOME=/usr/apps/hive/hive-1.2.2 export PATH=$PATH:$HIVE_HOME/bin
启动Hive
启动hive前,确保Hadoop集群正常启动
bin/hive
现在可以开心的操作hive了。
二、MySQL的安装
请查看我的另一篇博文基于Linux安装MySQL
三、Hive与MySQL的整合
1、下载驱动jar包
-
去MySQL官网按照如下操作:
-
选择MySQL Community (GPL) Downloads »
-
选择:Connector/J
-
选择版本
在Linux中一般下载tar包
2、上传至文件目录中
3、拷贝到hive安装目录的lib文件夹下
cp ./mysql-connector-java-5.1.49-bin.jar /usr/apps/hive/hive-1.2.2/lib/
4、修改配置文件
1、在conf目录下创建hive.site.xml文件并进行相关参数的配置
touch hive-site.xml
vi hive-site.xml
2、文件的配置信息
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--连接数据库 -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://m1:3306/metastore?useSSL=false</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<!--驱动名 -->
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<!--数据库名称 -->
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<!--数据库密码 -->
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>@Zhh123!</value>
<description>password to use against metastore database</description>
</property>
</configuration>
- 保存退出
四、Hive常见的属性配置
1、Hive数据仓库位置配置
-
Default数据仓库的最原始位置是在hdfs上的:/use/hive/warehouse路径下;
-
在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹;
-
修改default数据仓库原始位置(将hive-default.xml.template如下配置信息复制到hive-site.xml文件中)。
<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</value> <description>location of default database for the warehouse</description> </property>
2、查询后信息显示配置
-
在hive-site.xml文件中添加如下配置信息,就可以实现显示当前数据,以及查询表的头信息配置;
<property> <name>hive.cli.print.header</name> <value>true</value> </property> <property> <name>hive.cli.print.current.db</name> <value>true</value> </property>
-
重新启动hive,对比前后配置差异
- 配置前:
- 配置后:
- 配置前:
3、Hive运行日志信息配置
-
hive的log默认存放在当前用户名下;
/tmp/root有个hive.log
-
修改hive的log存放日志到/usr/apps/hive/hive-1.2.2/logs
-
修改hive-exec-log4j.properties.template文件名称为hive-exec-log4j.properties
cd /usr/apps/hive/hive-1.2.2/conf/ mv hive-log4j.properties.template hive-log4j.properties
-
在hive-log4j.properties文件中修改log存放路径
hive.log.dir=/usr/apps/hive/hive-1.2.2/logs
-
4、参数配置方式
-
查看当前所有的配置信息
hive>set;
-
参数的配置三种方式v
-
配置文件方式
默认配置文件:hive-default.xml
用户自定义配置文件: hive-site.xml
注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop 的配置,因为Hive是作为Hadoop 的客户端启动的,Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。
-
命令行参数方式
启动Hive时,可以在命令行添加-hiveconf param=value来设定参数。
例如:
bin/hive -hiveconf mapred.reduce.tasks=10;
注意:仅对本次hive启动有效查看参数设置:
查看参数设置:
hive (default)> set mapred.reduce.tasks;
-