文章目录
一、概述
由Facebook开源用于解决海量结构化日志的数据统计工具。
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。 Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。同时,Hive也是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),并且提供了存储、查询和分析Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce的开发者的设计自定义的Mapper和Reducer来处理内建的Mapper和Reducer无法完成的复杂的分析工作。
Hive的命令行接口和关系数据库的命令行接口类似,但是Hive和关系数据库还是有很大的不同,主要体现在以下几点:
-
Hive和关系数据库存储文件的系统不同,Hive使用的是Hadoop的HDFS,关系数据库则是服务器本地的文件系统。
-
Hive使用的计算模型是MapReduce,而关系数据库则是自己设计的计算模型。
-
关系数据库都是为实时查询的业务进行设计的,而Hive则是为海量数据做数据挖掘设计的,实时性很差,实时性的区别导致Hive的应用场景和关系数据库有很大的不同。
-
Hive很容易扩展自己的存储能力和计算能力,这个是继承Hadoop的特性,而关系数据库在这个方面要比Hive差很多。
二 、Hive 安装
2.1 依赖环境
- HDFS和MapReduce就绪
- 需要安装MySQL数据库服务
[root@CentOS ~]# yum install -y mysql-server
[root@CentOS ~]# service mysqld start
[root@CentOS ~]# mysqladmin -u root password 'root'
[root@CentOS ~]# mysql -u root -proot
mysql> use mysql
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
Database changed
mysql> delete from user where password='';
Query OK, 4 rows affected (0.00 sec)
mysql> grant all privileges on *.* to 'root'@'%' identified by 'root' with grant option;
Query OK, 0 rows affected (0.00 sec)
mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)
mysql> create database hive;
Query OK, 1 row affected (0.00 sec)
2.2 安装配置Hive
[root@CentOS ~]# tar -zxf apache-hive-1.2.1-bin.tar.gz -C /home/hive
[root@CentOS ~]# vi /home/hive/apache-hive-1.2.1-bin/conf/hive-site.xml
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.134.1:3306/hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
</property>
</configuration>
2.3 拷贝相关依赖
-
将连接MySQL驱动jar包拷贝到hive安装目录下的lib目录.
-
拷贝hive安装lib目录下jline-2.12.jar到hadoop的share/hadoop/yarn/lib目录下,将低版本jline-0.9.94.jar删除
2.4 配置环境变量
export HBASE_MANAGES_ZK=false
export HBASE_HOME=/usr/hbase-1.2.4
export HADOOP_HOME=/usr/hadoop-2.6.0
export HADOOP_CLASSPATH=/root/mysql-connector-java-5.1.44.jar
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin
export CLASSPATH=.
2.5 启动hive
2.5.1 单机
[root@CentOS apache-hive-1.2.1-bin]# ./bin/hive
>select current_database();
> show databases;
> show tables;
[root@CentOS apache-hive-1.2.1-bin]# ./bin/hive -e 'select * from t_user'
2.5.2 服务启动-JDBC
[root@CentOS apache-hive-1.2.1-bin]# ./bin/hiveserver2 #启动hive服务,挂起
[root@CentOS apache-hive-1.2.1-bin]# ./bin/beeline -u jdbc:hive2://$HOSTNAME:10000 -n root
Connecting to jdbc:hive2://CentOS:10000
Connected to: Apache Hive (version 1.2.1)
Driver: Hive JDBC (version 1.2.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.2.1 by Apache Hive
0: jdbc:hive2://CentOS:10000> show databases;
+----------------+--+
| database_name |
+----------------+--+
| default |
+----------------+--+
0: jdbc:hive2://CentOS:10000> select current_database();
+----------+--+
| _c0 |
+----------+--+
| default |
+----------+--+
0: jdbc:hive2://CentOS:10000> desc t_user;
+-----------+--------------+----------+--+
| col_name | data_type | comment |
+-----------+--------------+----------+--+
| id | int | |
| name | varchar(32) | |
+-----------+--------------+----------+--+
四、Hive表操作
4.1 Hive数据类型
数据类型
数据类型(primitive,array,map,struct)
①primitive(原始类型):
整数:TINYINT、SMALLINT、INT、BIGINT
布尔:BOOLEAN
小数:FLOAT、DOUBLE
字符:STRING、CHAR、VARCHAR
二进制:BINARY
时间类型:TIMESTAMP、DATE
②array(数组类型):ARRAY < data_type >
③map(key-value类型):MAP < primitive_type, data_type >
④struct(结构体类型):STRUCT <col_name:data_type, ...>
4.2 创建表
create table t_user(
id int,
name string,
sex boolean,
birthDay date,
salary double,
hobbies array<string>,
card map<string,string>,
address struct<country:string,city:string>
)
0: jdbc:hive2://CentOS:10000> desc formatted t_user;
4.3 默认分割符
分隔符 | 描述 |
---|---|
\n | 对于文本来说,每一行都是一条记录。因此\n可以分割记录。 |
^A(Ctrl+a) | 用于分割字段(列),在create table中可以使用\001表示。 |
^B(Ctrl+b) | 用于分割array或者是struct中 的元素或者用于map结构中的k-v对的分隔符,在create table中可以使用\002表示。 |
^C(Ctrl+c) | 用于Map中k-v的分隔符,在create table中可以使用\003表示。 |
- 准备数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ks418Sig-1574644232604)(assets/默认格式数据.png)]
4.4 将数据导入到表中
//不常用
[root@centos ~]# hdfs dfs -put t_user /user/hive/warehouse/baizhi.db/t_user
0: jdbc:hive2://CentOS:10000> select id,name,salary,address.city,card['002'] bank from t_user;
+-----+-------+----------+-------+-------+--+
| id | name | salary | city | bank |
+-----+-------+----------+-------+-------+--+
| 1 | zs | 10000.0 | 北京 | 招商 |
+-----+-------+----------+-------+-------+--+
0: jdbc:hive2://CentOS:10000> dfs -ls /;
+-------------------------------------------------------------------+--+
| DFS Output |
+-------------------------------------------------------------------+--+
| Found 2 items |
| drwx-wx-wx - root supergroup 0 2019-01-18 18:59 /tmp |
| drwxr-xr-x - root supergroup 0 2019-01-18 22:19 /user |
+-------------------------------------------------------------------+--+
//使用hive加载数据
0: jdbc:hive2://CentOS:10000> load data local inpath '/root/t_user_c' overwrite into table t_user_c;
'local’表示本地加载信息,‘overwrite’:表示数据覆盖。
4.5 JDBC访问Hive实现数据查询
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>1.2.1</version>
</dependency>
package com.baizhi;
import org.junit.Test;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;
public class App {
@Test
public void testJdbs() throws Exception {
//加载驱动
Class.forName("org.apache.hive.jdbc.HiveDriver");
//获取连接
Connection conn = DriverManager.getConnection("jdbc:hive2://HadoopNode00:10000/baizhi"
, "root",
null);
//创建stm
Statement statement = conn.createStatement();
//获取结果集
ResultSet resultSet = statement.executeQuery("select sex, avg(salary) avgSalarry from t_user group by sex");
//处理结果集合
while (resultSet.next()) {
boolean sex = resultSet.getBoolean("sex");
double avgSalarry = resultSet.getDouble("avgSalarry");
System.out.println("sex:" + sex + " ,avgSalary:" + avgSalarry);
}
//关闭结果集和stm、conn
resultSet.close();
statement.close();
conn.close();
}
}
4.6 自定义分隔符
1,zhangsan,true,18,15000,TV|Game,001>建设|002