Hive: ------ 概述、安装

Apache Hive

概述

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive (1.x版本)查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。 Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析等。
联机事务处理-OLTP:在线事务处理,泛指RDBMS,事务处理完善,延迟低。

在这里插入图片描述

Hive(Impala)是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。同时,Hive也是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),并且提供了存储、查询和分析Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce的开发者的设计自定义的Mapper和Reducer来处理内建的Mapper和Reducer无法完成的复杂的分析工作。

架构

Hive提供了一个SQL命令的操作接口,允许用户可以使用类似SQL的Hive的Query Language执行一些离线的SQL分析。但是Hive和传统的数据库不同,Hive只是构建在Hadoop的MapReduce之上的SQL解析工具,并不参与数据的管理和存储,Hive中所有的数据都是在运行任务的时候才会真正的加载。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7Zg8UJF0-1587393293250)(assets/1578536704855.png)]

总的来说Hive有以下几点特性:

  • Hive和关系数据库存储文件的系统不同,Hive使用的是Hadoop的HDFS,关系数据库则是服务器本地的文件系统。
  • Hive使用的计算模型是MapReduce,而关系数据库则是自己设计的计算模型。
  • 关系数据库都是为OLTP进行设计的,而Hive则是为海量数据做数据挖掘设计的,实时性很差,实时性的区别导致Hive的应用场景和关系数据库有很大的不同。
  • Hive很容易扩展自己的存储能力和计算能力,这个是继承Hadoop的特性,而关系数据库在这个方面要比Hive差很多。

安装

由于hive需要存储一些建表的元数据信息,因此在生产环境下安装Hive需要事先安装MySQL数据库服务(注意:MySQL数据库的编码必须是Latin1编码)。其次Hive是构建在Hadoop存储和计算之上的工具,因此还需要在配置和安装hive之前保证Hadoop的hdfs和MapReduce正常运行。最后Hive的安装主机上必须配置HADOOP_HOME环境变量,这样Hive可以通过HADOOP_HOME环境变量感知用户的Hadoop计算集群的位置和规模。

准备工作

  • 保证有一个可用MySQL服务(略)
  • 确保HDFS、YARN正常运行,配置HADOOP_HOME环境变量(略)

Hive配置

1、解压hive安装包,解压到/usr目录下

[root@CentOS ~]# tar -zxf apache-hive-1.2.2-bin.tar.gz -C /usr/
[root@CentOS ~]# cd /usr/apache-hive-1.2.2-bin/

2、创建conf/hive-site.xml,配置以下内容

    [root@CentOS apache-hive-1.2.2-bin]# vi conf/hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
  
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://CentOS:3306/hive?createDatabaseIfNotExist=true</value>
  </property>
  
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
  
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>root</value>
  </property>

</configuration>

3、将MySQL的驱动jar拷贝到lib目录下

[root@CentOS apache-hive-1.2.2-bin]# cp ~/mysql-connector-java-5.1.10-bin.jar lib/
[root@CentOS apache-hive-1.2.2-bin]#

4、配置HIVE_HOME环境变量

[root@CentOS ~]# vi .bashrc
HIVE_HOME=/usr/apache-hive-1.2.2-bin
HBASE_HOME=/usr/hbase-1.2.4
HADOOP_HOME=/usr/hadoop-2.9.2
JAVA_HOME=/usr/java/latest
CLASSPATH=.
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin
export JAVA_HOME
export CLASSPATH
export PATH
export HADOOP_HOME
export HBASE_HOME
# export HADOOP_CLASSPATH=`hbase classpath` # 因为HBase依赖中jar和Hive冲突
export HIVE_HOME
[root@CentOS ~]# source .bashrc

5、启动Hive

  • 单用户模式
[root@CentOS ~]# hive

Logging initialized using configuration in jar:file:/usr/apache-hive-1.2.2-bin/lib/hive-common-1.2.2.jar!/hive-log4j.properties
Logging initialized using configuration in jar:file:/usr/apache-hive-1.2.2-bin/lib/hive-common-1.2.2.jar!/hive-log4j.properties
hive> show databases;
OK
default
Time taken: 1.742 seconds, Fetched: 1 row(s)
hive> create database baizhi;
OK
Time taken: 0.363 seconds
hive> show databases;
OK
baizhi
default
Time taken: 0.039 seconds, Fetched: 2 row(s)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LsmjTHqF-1587396898619)(assets/1578541053972.png)]

  • 多用户模式
[root@CentOS ~]# hiveserver2 >/dev/null 2>&1 &  # 后台启动服务
[1] 8772
[root@CentOS ~]#  beeline -u jdbc:hive2://Centos:10000 -n root
Connecting to jdbc:hive2://CentOS:10000
Connected to: Apache Hive (version 1.2.2)
Driver: Hive JDBC (version 1.2.2)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.2.2 by Apache Hive
0: jdbc:hive2://CentOS:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| baizhi         |
| default        |
+----------------+--+
2 rows selected (2.849 seconds)
0: jdbc:hive2://CentOS:10000> select current_database();
+---------+--+
|   _c0   |
+---------+--+
| baizhi  |
+---------+--+
1 row selected (1.832 seconds)
0: jdbc:hive2://CentOS:10000> dfs -ls /;
+--------------------------------------------------------------------------+--+
|                                DFS Output                                |
+--------------------------------------------------------------------------+--+
| Found 4 items                                                            |
| drwxr-xr-x   - root supergroup          0 2020-01-08 12:04 /hbase        |
| drwxr-xr-x   - root supergroup          0 2020-01-08 12:11 /salaryCount  |
| drwx------   - root supergroup          0 2020-01-09 11:26 /tmp          |
| drwxr-xr-x   - root supergroup          0 2020-01-09 11:38 /user         |
+--------------------------------------------------------------------------+--+
5 rows selected (0.245 seconds)

-u 指定的是URL -n 指定是name

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值