Hive简介以及快速入门

最新推荐文章于 2024-07-17 18:00:00 发布

zhou_zhao_xu

最新推荐文章于 2024-07-17 18:00:00 发布

阅读量295

点赞数

分类专栏： Hive

本文链接：https://blog.csdn.net/zhou_zhao_xu/article/details/103232393

版权

文章目录

一、概述
二、Hive 安装
四、Hive表操作
五、Hive表分类
六、Hive QL操作
七、Hive 自定义函数
八、Hive On Hbase

一、概述

由Facebook开源用于解决海量结构化日志的数据统计工具。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。 Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。
在这里插入图片描述

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。同时，Hive也是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），并且提供了存储、查询和分析Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce的开发者的设计自定义的Mapper和Reducer来处理内建的Mapper和Reducer无法完成的复杂的分析工作。

Hive的命令行接口和关系数据库的命令行接口类似，但是Hive和关系数据库还是有很大的不同，主要体现在以下几点：

Hive和关系数据库存储文件的系统不同，Hive使用的是Hadoop的HDFS，关系数据库则是服务器本地的文件系统。
Hive使用的计算模型是MapReduce，而关系数据库则是自己设计的计算模型。
关系数据库都是为实时查询的业务进行设计的，而Hive则是为海量数据做数据挖掘设计的，实时性很差，实时性的区别导致Hive的应用场景和关系数据库有很大的不同。
Hive很容易扩展自己的存储能力和计算能力，这个是继承Hadoop的特性，而关系数据库在这个方面要比Hive差很多。

二、Hive 安装

2.1 依赖环境

HDFS和MapReduce就绪
需要安装MySQL数据库服务

[root@CentOS ~]# yum install -y mysql-server
[root@CentOS ~]# service mysqld start
[root@CentOS ~]# mysqladmin -u root password 'root'
[root@CentOS ~]# mysql -u root -proot

mysql> use mysql
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
mysql> delete from user where password='';
Query OK, 4 rows affected (0.00 sec)

mysql> grant all privileges on *.* to 'root'@'%' identified by 'root' with grant option;
Query OK, 0 rows affected (0.00 sec)

mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)

mysql> create database hive;
Query OK, 1 row affected (0.00 sec)

2.2 安装配置Hive

[root@CentOS ~]# tar -zxf apache-hive-1.2.1-bin.tar.gz -C /home/hive
[root@CentOS ~]# vi /home/hive/apache-hive-1.2.1-bin/conf/hive-site.xml
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://192.168.134.1:3306/hive</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>root</value>
        </property>
         <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>root</value>
         </property>
</configuration>

2.3 拷贝相关依赖

将连接MySQL驱动jar包拷贝到hive安装目录下的lib目录.
拷贝hive安装lib目录下jline-2.12.jar到hadoop的share/hadoop/yarn/lib目录下,将低版本jline-0.9.94.jar删除

2.4 配置环境变量

export HBASE_MANAGES_ZK=false
export HBASE_HOME=/usr/hbase-1.2.4
export HADOOP_HOME=/usr/hadoop-2.6.0
export HADOOP_CLASSPATH=/root/mysql-connector-java-5.1.44.jar
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin
export CLASSPATH=.

2.5 启动hive

2.5.1 单机

[root@CentOS apache-hive-1.2.1-bin]# ./bin/hive
>select  current_database();
> show databases;
> show tables;
[root@CentOS apache-hive-1.2.1-bin]# ./bin/hive -e 'select * from t_user'

2.5.2 服务启动-JDBC

[root@CentOS apache-hive-1.2.1-bin]# ./bin/hiveserver2 #启动hive服务,挂起
[root@CentOS apache-hive-1.2.1-bin]# ./bin/beeline -u jdbc:hive2://$HOSTNAME:10000 -n root
Connecting to jdbc:hive2://CentOS:10000
Connected to: Apache Hive (version 1.2.1)
Driver: Hive JDBC (version 1.2.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.2.1 by Apache Hive
0: jdbc:hive2://CentOS:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default        |
+----------------+--+
0: jdbc:hive2://CentOS:10000> select current_database();
+----------+--+
|   _c0    |
+----------+--+
| default  |
+----------+--+
0: jdbc:hive2://CentOS:10000> desc t_user;
+-----------+--------------+----------+--+
| col_name  |  data_type   | comment  |
+-----------+--------------+----------+--+
| id        | int          |          |
| name      | varchar(32)  |          |
+-----------+--------------+----------+--+

四、Hive表操作

4.1 Hive数据类型

数据类型

数据类型（primitive，array，map，struct）
①primitive(原始类型)：
  整数：TINYINT、SMALLINT、INT、BIGINT
  布尔：BOOLEAN
  小数：FLOAT、DOUBLE
  字符：STRING、CHAR、VARCHAR
  二进制：BINARY
 时间类型：TIMESTAMP、DATE
②array（数组类型）：ARRAY < data_type >
③map（key-value类型）：MAP < primitive_type, data_type >
④struct（结构体类型）：STRUCT <col_name:data_type, ...>

4.2 创建表

create table t_user(
  id int,
  name string,
  sex boolean,
  birthDay date,
  salary double,
  hobbies array<string>,
  card map<string,string>,
  address struct<country:string,city:string> 
)
0: jdbc:hive2://CentOS:10000> desc formatted t_user;

4.3 默认分割符

分隔符	描述
\n	对于文本来说，每一行都是一条记录。因此\n可以分割记录。
^A(Ctrl+a)	用于分割字段（列），在create table中可以使用\001表示。
^B(Ctrl+b)	用于分割array或者是struct中的元素或者用于map结构中的k-v对的分隔符，在create table中可以使用\002表示。
^C(Ctrl+c)	用于Map中k-v的分隔符，在create table中可以使用\003表示。

准备数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ks418Sig-1574644232604)(assets/默认格式数据.png)]

4.4 将数据导入到表中

//不常用
[root@centos ~]# hdfs dfs -put t_user /user/hive/warehouse/baizhi.db/t_user
0: jdbc:hive2://CentOS:10000> select id,name,salary,address.city,card['002'] bank  from t_user; 
+-----+-------+----------+-------+-------+--+
| id  | name  |  salary  | city  | bank  |
+-----+-------+----------+-------+-------+--+
| 1   | zs    | 10000.0  | 北京    | 招商    |
+-----+-------+----------+-------+-------+--+
0: jdbc:hive2://CentOS:10000> dfs -ls /;
+-------------------------------------------------------------------+--+
|                            DFS Output                             |
+-------------------------------------------------------------------+--+
| Found 2 items                                                     |
| drwx-wx-wx   - root supergroup          0 2019-01-18 18:59 /tmp   |
| drwxr-xr-x   - root supergroup          0 2019-01-18 22:19 /user  |
+-------------------------------------------------------------------+--+
//使用hive加载数据
0: jdbc:hive2://CentOS:10000> load data local inpath '/root/t_user_c' overwrite into table t_user_c;

'local’表示本地加载信息，‘overwrite’：表示数据覆盖。

4.5 JDBC访问Hive实现数据查询

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.6.0</version>
</dependency>

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-jdbc</artifactId>
    <version>1.2.1</version>
</dependency>

package com.baizhi;

import org.junit.Test;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;


public class App {
   

    @Test
    public void testJdbs() throws Exception {
   


        //加载驱动
        Class.forName("org.apache.hive.jdbc.HiveDriver");
        //获取连接
        Connection conn = DriverManager.getConnection("jdbc:hive2://HadoopNode00:10000/baizhi"
                , "root",
                null);
        //创建stm
        Statement statement = conn.createStatement();
        //获取结果集
        ResultSet resultSet = statement.executeQuery("select sex, avg(salary) avgSalarry from t_user group by sex");

        //处理结果集合
        while (resultSet.next()) {
   
            boolean sex = resultSet.getBoolean("sex");
            double avgSalarry = resultSet.getDouble("avgSalarry");
            System.out.println("sex:" + sex + " ,avgSalary:" + avgSalarry);
        }
		//关闭结果集和stm、conn
        resultSet.close();
        statement.close();
        conn.close();
    }
}

4.6 自定义分隔符

1,zhangsan,true,18,15000,TV|Game,001>建设|002

最低0.47元/天解锁文章