Hive简介以及快速入门

文章目录

一、概述

由Facebook开源用于解决海量结构化日志的数据统计工具。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。 Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
在这里插入图片描述

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。同时,Hive也是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),并且提供了存储、查询和分析Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce的开发者的设计自定义的Mapper和Reducer来处理内建的Mapper和Reducer无法完成的复杂的分析工作。

Hive的命令行接口和关系数据库的命令行接口类似,但是Hive和关系数据库还是有很大的不同,主要体现在以下几点:

  1. Hive和关系数据库存储文件的系统不同,Hive使用的是Hadoop的HDFS,关系数据库则是服务器本地的文件系统。

  2. Hive使用的计算模型是MapReduce,而关系数据库则是自己设计的计算模型。

  3. 关系数据库都是为实时查询的业务进行设计的,而Hive则是为海量数据做数据挖掘设计的,实时性很差,实时性的区别导致Hive的应用场景和关系数据库有很大的不同。

  4. Hive很容易扩展自己的存储能力和计算能力,这个是继承Hadoop的特性,而关系数据库在这个方面要比Hive差很多。

二 、Hive 安装

2.1 依赖环境

  • HDFS和MapReduce就绪
  • 需要安装MySQL数据库服务
[root@CentOS ~]# yum install -y mysql-server
[root@CentOS ~]# service mysqld start
[root@CentOS ~]# mysqladmin -u root password 'root'
[root@CentOS ~]# mysql -u root -proot

mysql> use mysql
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
mysql> delete from user where password='';
Query OK, 4 rows affected (0.00 sec)

mysql> grant all privileges on *.* to 'root'@'%' identified by 'root' with grant option;
Query OK, 0 rows affected (0.00 sec)

mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)

mysql> create database hive;
Query OK, 1 row affected (0.00 sec)

2.2 安装配置Hive

[root@CentOS ~]# tar -zxf apache-hive-1.2.1-bin.tar.gz -C /home/hive
[root@CentOS ~]# vi /home/hive/apache-hive-1.2.1-bin/conf/hive-site.xml
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
        <property>
                <name>javax.jdo.option.ConnectionURL</name>
                <value>jdbc:mysql://192.168.134.1:3306/hive</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionDriverName</name>
                <value>com.mysql.jdbc.Driver</value>
        </property>
        <property>
                <name>javax.jdo.option.ConnectionUserName</name>
                <value>root</value>
        </property>
         <property>
                <name>javax.jdo.option.ConnectionPassword</name>
                <value>root</value>
         </property>
</configuration>

2.3 拷贝相关依赖

  • 将连接MySQL驱动jar包拷贝到hive安装目录下的lib目录.

  • 拷贝hive安装lib目录下jline-2.12.jar到hadoop的share/hadoop/yarn/lib目录下,将低版本jline-0.9.94.jar删除

2.4 配置环境变量

export HBASE_MANAGES_ZK=false
export HBASE_HOME=/usr/hbase-1.2.4
export HADOOP_HOME=/usr/hadoop-2.6.0
export HADOOP_CLASSPATH=/root/mysql-connector-java-5.1.44.jar
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin
export CLASSPATH=.

2.5 启动hive

2.5.1 单机

[root@CentOS apache-hive-1.2.1-bin]# ./bin/hive
>select  current_database();
> show databases;
> show tables;
[root@CentOS apache-hive-1.2.1-bin]# ./bin/hive -e 'select * from t_user'

2.5.2 服务启动-JDBC

[root@CentOS apache-hive-1.2.1-bin]# ./bin/hiveserver2 #启动hive服务,挂起
[root@CentOS apache-hive-1.2.1-bin]# ./bin/beeline -u jdbc:hive2://$HOSTNAME:10000 -n root
Connecting to jdbc:hive2://CentOS:10000
Connected to: Apache Hive (version 1.2.1)
Driver: Hive JDBC (version 1.2.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
Beeline version 1.2.1 by Apache Hive
0: jdbc:hive2://CentOS:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default        |
+----------------+--+
0: jdbc:hive2://CentOS:10000> select current_database();
+----------+--+
|   _c0    |
+----------+--+
| default  |
+----------+--+
0: jdbc:hive2://CentOS:10000> desc t_user;
+-----------+--------------+----------+--+
| col_name  |  data_type   | comment  |
+-----------+--------------+----------+--+
| id        | int          |          |
| name      | varchar(32)  |          |
+-----------+--------------+----------+--+

四、Hive表操作

4.1 Hive数据类型

数据类型

数据类型(primitive,array,map,struct)
①primitive(原始类型):
  整数:TINYINTSMALLINTINTBIGINT
  布尔:BOOLEAN
  小数:FLOATDOUBLE
  字符:STRING、CHARVARCHAR
  二进制:BINARY
 时间类型:TIMESTAMPDATE
②array(数组类型):ARRAY < data_type >
③map(key-value类型):MAP < primitive_type, data_type >
④struct(结构体类型):STRUCT <col_name:data_type, ...>

4.2 创建表

create table t_user(
  id int,
  name string,
  sex boolean,
  birthDay date,
  salary double,
  hobbies array<string>,
  card map<string,string>,
  address struct<country:string,city:string> 
)
0: jdbc:hive2://CentOS:10000> desc formatted t_user;

4.3 默认分割符

分隔符 描述
\n 对于文本来说,每一行都是一条记录。因此\n可以分割记录。
^A(Ctrl+a) 用于分割字段(列),在create table中可以使用\001表示。
^B(Ctrl+b) 用于分割array或者是struct中 的元素或者用于map结构中的k-v对的分隔符,在create table中可以使用\002表示。
^C(Ctrl+c) 用于Map中k-v的分隔符,在create table中可以使用\003表示。
  • 准备数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ks418Sig-1574644232604)(assets/默认格式数据.png)]

4.4 将数据导入到表中

//不常用
[root@centos ~]# hdfs dfs -put t_user /user/hive/warehouse/baizhi.db/t_user
0: jdbc:hive2://CentOS:10000> select id,name,salary,address.city,card['002'] bank  from t_user; 
+-----+-------+----------+-------+-------+--+
| id  | name  |  salary  | city  | bank  |
+-----+-------+----------+-------+-------+--+
| 1   | zs    | 10000.0  | 北京    | 招商    |
+-----+-------+----------+-------+-------+--+
0: jdbc:hive2://CentOS:10000> dfs -ls /;
+-------------------------------------------------------------------+--+
|                            DFS Output                             |
+-------------------------------------------------------------------+--+
| Found 2 items                                                     |
| drwx-wx-wx   - root supergroup          0 2019-01-18 18:59 /tmp   |
| drwxr-xr-x   - root supergroup          0 2019-01-18 22:19 /user  |
+-------------------------------------------------------------------+--+
//使用hive加载数据
0: jdbc:hive2://CentOS:10000> load data local inpath '/root/t_user_c' overwrite into table t_user_c;

'local’表示本地加载信息,‘overwrite’:表示数据覆盖。

4.5 JDBC访问Hive实现数据查询

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.6.0</version>
</dependency>

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-jdbc</artifactId>
    <version>1.2.1</version>
</dependency>
package com.baizhi;

import org.junit.Test;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;


public class App {
   

    @Test
    public void testJdbs() throws Exception {
   


        //加载驱动
        Class.forName("org.apache.hive.jdbc.HiveDriver");
        //获取连接
        Connection conn = DriverManager.getConnection("jdbc:hive2://HadoopNode00:10000/baizhi"
                , "root",
                null);
        //创建stm
        Statement statement = conn.createStatement();
        //获取结果集
        ResultSet resultSet = statement.executeQuery("select sex, avg(salary) avgSalarry from t_user group by sex");

        //处理结果集合
        while (resultSet.next()) {
   
            boolean sex = resultSet.getBoolean("sex");
            double avgSalarry = resultSet.getDouble("avgSalarry");
            System.out.println("sex:" + sex + " ,avgSalary:" + avgSalarry);
        }
		//关闭结果集和stm、conn
        resultSet.close();
        statement.close();
        conn.close();
    }
}

4.6 自定义分隔符

1,zhangsan,true,18,15000,TV|Game,001>建设|002
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值