Hive——Hive安装全流程

1、基本准备

(1)Hive 官网地址

Hive官网

(2)文档查看地址

Hive文档查看地址

(3)下载地址

下载地址

(4)Github地址

Github地址

2、安装Hive

  • apache-hive-3.1.2-bin.tar.gz 上传到 Linux/opt/software 目录下

  • 解压 apache-hive-3.1.2-bin.tar.gz/opt/module/目录下面

    tar -zxvf /opt/software/apache-hive-3.1.2- bin.tar.gz -C /opt/module/
    
  • 修改 apache-hive-3.1.2-bin.tar.gz 的名称为 hive

    mv /opt/module/apache-hive-3.1.2-bin/ /opt/module/hive
    
  • 修改/etc/profile.d/my_env.sh,添加环境变量

    sudo vim /etc/profile.d/my_env.sh 
    
  • 添加内容

    #HIVE_HOME
    export HIVE_HOME=/opt/module/hive export PATH=$PATH:$HIVE_HOME/bin
    
  • 解决日志 Jar 包冲突

    mv $HIVE_HOME/lib/log4j-slf4j-impl- 2.10.0.jar 
    $HIVE_HOME/lib/log4j-slf4j-impl-2.10.0.bak
    
  • 初始化元数据库

    bin/schematool -dbType derby -initSchema
    

3、启动并使用Hive

3.1、启动Hive

bin/hive 

3.2、使用Hive

# 查看有哪些数据库
show databases;
# 查看有哪些表
show tables;
# 创建一张表
create table test(id int);
# 插入一条元素
insert into test values(1); 
# 查询
select * from test;

3.3、CRT 窗口中开启另一个窗口开启 Hive,在/tmp/atguigu 目录下监控hive.log文件

4、Hive元数据配置到 MySQL

4.1、拷贝驱动

MySQLJDBC 驱动拷贝到 Hivelib 目录下:

cp /opt/software/mysql-connector-java-5.1.37.jar $HIVE_HOME/lib

4.2、配置 MetastoreMySQL

# 文件目录:$HIVE_HOME/conf/hive-site.xml 
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <!-- jdbc 连接的 URL -->
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://hadoop102:3306/metastore?useSSL=false</value>
  </property>
  
  <!-- jdbc 连接的 Driver-->
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  
  <!-- jdbc 连接的 username-->
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
  
  <!-- jdbc 连接的 password -->
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>000000</value>
  </property>
  
  <!-- Hive 元数据存储版本的验证 -->
  <property>
    <name>hive.metastore.schema.verification</name>
    <value>false</value>
  </property>
  
  <!--元数据存储授权-->
  <property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
  </property>
  
  <!-- Hive 默认在 HDFS 的工作目录 -->
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
  </property>
</configuration>

4.3、登录MySQL

mysql -uroot -p000000

4.4、新建Hive元数据库

create database metastore;
quit;

4.5、初始化 Hive 元数据库

schematool -initSchema -dbType mysql - verbose

5、使用元数据服务的方式访问 Hive

  • 使用元数据服务的方式访问 Hive
<!-- 指定存储元数据要连接的地址 -->
<property>
  <name>hive.metastore.uris</name>
  <value>thrift://hadoop102:9083</value>
</property>

  • 启动metastore:hive --service metastore
  • 启动Hive:bin/hive

6、使用JDBC方式访问Hive

  • hive-site.xml 文件中添加如下配置信息

    <!-- 指定 hiveserver2 连接的 host -->
    <property>
      <name>hive.server2.thrift.bind.host</name>
      <value>hadoop102</value>
    </property>
    
    <!-- 指定 hiveserver2 连接的端口号 -->
    <property>
      <name>hive.server2.thrift.port</name>
      <value>10000</value>
    </property>
    
    
  • 启动 hiveserver2

    bin/hive --service hiveserver2
    
  • 启动 beeline 客户端

    bin/beeline -u jdbc:hive2://hadoop102:10000 -n atguigu
    
  • 看到如下界面

    Connecting to jdbc:hive2://hadoop102:10000 Connected to: 
    Apache Hive (version 3.1.2) Driver: Hive JDBC (version 3.1.2)
    Transaction isolation: 
    TRANSACTION_REPEATABLE_READ Beeline version 3.1.2 by Apache Hive
    0: jdbc:hive2://hadoop102:10000>
    
    
  • 编写 hive 服务启动脚本

    • 前台启动的方式导致需要打开多个 shell 窗口,可以使用如下方式后台方式启动;

      • nohup: 放在命令开头,表示不挂起,也就是关闭终端进程也继续保持运行状态;
      • /dev/null:Linux 文件系统中的一个文件,被称为黑洞,所有写入改文件的内容 都会被自动丢弃;
      • 2>&1: 表示将错误重定向到标准输出上
      • &: 放在命令结尾,表示后台运行

      一般会组合使用:nohup [xxx 命令操作]> file 2>&1 &,表示将 xxx 命令运行的结 果输出到 file 中,并保持命令启动的进程在后台运行。

    nohup hive --service metastore 2>&1 &
    nohup hive --service hiveserver2 2>&1 &
    
    
    • 为了方便使用,可以直接编写脚本来管理服务的启动和关闭;
    # $HIVE_HOME/bin/hiveservices.sh
    
    #!/bin/bash 
    HIVE_LOG_DIR=$HIVE_HOME/logs 
    if [ ! -d $HIVE_LOG_DIR ] 
    then
        mkdir -p $HIVE_LOG_DIR
    fi
    #检查进程是否运行正常,参数 1 为进程名,参数 2 为进程端口
    function check_process()
    {
        pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print$2}')
        ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut - d '/' -f 1)
        echo $pid
        [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
    }
    
    function hive_start()
    {
        metapid=$(check_process HiveMetastore 9083)
        cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"
        [ -z "$metapid" ] && eval $cmd || echo "Metastroe 服务已启动" server2pid=$(check_process HiveServer2 10000)
        cmd="nohup hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"
        [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2 服务已启动"
    }
    
    function hive_stop()
    {
        metapid=$(check_process HiveMetastore 9083)
        [ "$metapid" ] && kill $metapid || echo "Metastore 服务未启动" server2pid=$(check_process HiveServer2 10000)
        [ "$server2pid" ] && kill $server2pid || echo "HiveServer2 服务未启动"
    }
    
    case $1 in 
    "start")
        hive_start
        ;;
    "stop")
        hive_stop
        ;;
    "restart")
        hive_stop sleep 2 hive_start
        ;;
    "status")
        check_process HiveMetastore 9083 >/dev/null && echo "Metastore 服务运行 正常" || echo "Metastore 服务运行异常"
        check_process HiveServer2 10000 >/dev/null && echo "HiveServer2 服务运 行正常" || echo "HiveServer2 服务运行异常"
        ;;
    *)
        echo Invalid Args!
        echo 'Usage: '$(basename $0)' start|stop|restart|status'
        ;;
    esac
    
    
  • 添加执行权限

    chmod +x $HIVE_HOME/bin/hiveservices.sh 
    
  • 启动 Hive 后台服务

    chmod +x $HIVE_HOME/bin/hiveservices.sh 
    

7、Hive常用交互命令

  • "-e"不进入 hive 的交互窗口执行 sql语句

    bin/hive -e "select id from student;" 
    
  • "-f"执行脚本中 sql 语句

    • /opt/module/hive/下创建 datas 目录并在 datas 目录下创建 hivef.sql 文件

      touch hivef.sql
      
    • 文件中写入正确的sql语句

      select *from student; 
      
    • 执行文件中的 sql 语句

      bin/hive -f /opt/module/hive/datas/hivef.sql
      
    • 执行文件中的 sql 语句并将结果写入文件中

      bin/hive -f /opt/module/hive/datas/hivef.sql > /opt/module/datas/hive_result.txt
      

8、Hive其他命令操作

  • 退出 hive 窗口;
exit;
quit;
  • hive cli 命令窗口中如何查看 hdfs 文件系统;
dfs -ls /;
  • 查看在hive 中输入的所有历史命令;
    • 进入到当前用户的根目录 /root/home/atguigu
    • 查看.hivehistory 文件。
cat .hivehistory 

9、Hive常见属性配置

Hive运行日志信息配置

  • Hivelog 默认存放在/tmp/atguigu/hive.log 目录下(当前用户名下);
  • 修改 hivelog 存放日志到/opt/module/hive/logs
    • 修改/opt/module/hive/conf/hive-log4j2.properties.template 文件名称为hive-log4j2.properties

      mv hive-log4j2.properties.template hive- log4j2.properties
      
    • hive-log4j2.properties 文件中修改 log 存放位置

      hive.log.dir=/opt/module/hive/logs
      

10、打印当前库和表头

hive-site.xml 中加入如下两个配置:

<property>
  <name>hive.cli.print.header</name>
  <value>true</value>
</property>

<property>
  <name>hive.cli.print.current.db</name>
  <value>true</value>
</property>

11、参数配置方式

11.1、查看当前所有的配置信息

set;

11.2、参数的配置三种方式

  • 配置文件方式 默认配置文件:

    hive-default.xml 用户自定义配置文件:hive-site.xml

    用户自定义配置会覆盖默认配置。另外,Hive 也会读入Hadoop 的配置,因为 Hive 是作为 Hadoop 的客户端启动的,Hive的配置会覆盖 Hadoop 的配置。配置文件的设定对本 机启动的所有 Hive 进程都有效。

  • 命令行参数方式

    • 启动 Hive 时,可以在命令行添加-hiveconf param=value 来设定参数。

      bin/hive -hiveconf mapred.reduce.tasks=10;
      

      仅对本次 hive 启动有效,查看参数设置:

      set mapred.reduce.tasks;
      
  • 参数声明方式

    • 可以在 HQL中使用 SET 关键字设定参数

      set mapred.reduce.tasks=100;
      

      仅对本次 hive 启动有效

    • 查看参数设置

      set mapred.reduce.tasks;
      

上述三种设定方式的优先级依次递增。即配置文件<命令行参数<参数声明。注意某些系 统级的参数,例如 log4j 相关的设定,必须用前两种方式设定,因为那些参数的读取在会话 建立以前已经完成了。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值