hadoop学习——Hive

最新推荐文章于 2020-12-10 16:24:39 发布

zhouxiaowu_bigdata

最新推荐文章于 2020-12-10 16:24:39 发布

阅读量206

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

hive简介

hive是facebook数据团队基于hadoop开发的数据仓库封装，对存储在分布式中的大型数据集进行查询和管理。
主要提供以下功能：

提供了一系列的工具，用来对数据进行提取、转化、加载（ETl）;
一种可以存储、查询和分析存储在hdfs中的大规模数据的机制；
查询是通过mapreduce来完成（有些查询也可以不通过mapreduce来完成）

Hive是一种建立在Hadoop文件系统上的数据仓库框架，并对存贮在hdfs中的数据进行分析和管理，那么如何分析？

hive定义了一种类sql查询语言，被称为HQL，对于熟悉SQL的用户可以直接利用hive来查询数据。同时，这个语言也允许熟悉mapreduce开发者们开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂分析工作。hive可以允许用户编写自己定义的函数UDF在查询中使用。

hive与关系型数据库
hive和传统关系型数据库有很大的区别，hive将外部的任务解析成一个mapreduce可执行计划，而启动mapreduce是一个高延迟的一件事，每次提交任务和执行任务都需要消耗很多时间，这也决定了hive只能处理一些高延迟的应用，hive也不能对表进行修改（不能更新、删除、插入），只能通过文件追加数据、重新导入数据。

hive的数据存储方式
hive的数据分为表数据和元数据，表数据是hive中的表格（table）具有的数据；而元数据用来存储表的名字、列、属性、表的数据所在目录。
hive是基于Hadoop分布式文件系统的，数据存储在hadoop分布式文件系统中。hive本身没有专门的数据存储格式，也没有为数据建立索引，只需要要在创建表的时候告诉hive数据中的列分隔符和行分隔符，hive就可以解析数据，所以往hive表里面导入数据只是简单的将数据移动到表所在目录中。

hive中主要的数据模型：table，external table，partition（分区），bucket（桶）
table：hive表和关系数据库中的表的概念上类似，每个表在hdfs中都有相应的目录用来存储表的数据，这个目录可以通过hive-site.xml配置文件属性来配置。
externaltable：hive中的外部表与表类似，但是数据不是存放在自己表所属目录中，而是存放在别处，这样做的好处是删除这个外部表，而数据不会删除，只会删除外部表对应的元数据。
分区：hive中，表的每一个分区对应表下的相应的目录，所有分区的数据都是存储在对应的目录中，所有属于这个分区的数据都存放在这个目录中。
桶：
对指定的列计算其hash，根据hash值切分数据，每个桶对应一个文件，比如表中id列分散在16个个桶中，首先对id列的值计算hash，对应hash的值为0和16的数据存储在part-00000；而hash值为2的数据存储在part-00002.

hive的元数据
hive的元数据包括表的名字，表的列，分区，表的属性，表的数据所在的目录，由于hive的元数据需要不断更新、修改、而hdfs系统中的文件是多读少改的，显然不能将hive的元数据存储在hdfs中，目前将hive中的元数据存储在数据库中，配置如下：

<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://localhost:3306/hive_hdp?characterEncoding=UTF-8
                    &createDatabaseIfNotExist=true</value>
  <description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
  <description>Driver class name for a JDBC metastore</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>root</value>
  <description>username to use against metastore database</description>
</property>

<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>123456</value>
  <description>password to use against metastore database</description>
</property>

zhouxiaowu_bigdata

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习——Hive

hive简介hive是facebook数据团队基于hadoop开发的数据仓库封装，对存储在分布式中的大型数据集进行查询和管理。主要提供以下功能：提供了一系列的工具，用来对数据进行提取、转化、加载（ETl）;一种可以存储、查询和分析存储在hdfs中的大规模数据的机制；查询是通过mapreduce来完成（有些查询也可以不通过mapreduce来完成）Hive是一种建立在Hadoop文件系统上
复制链接

扫一扫