大数据11-Hive运行机制与使用

最新推荐文章于 2022-08-17 10:34:03 发布

rong_code

最新推荐文章于 2022-08-17 10:34:03 发布

阅读量433

点赞数

分类专栏：大数据-Hive 文章标签：大数据

本文链接：https://blog.csdn.net/zhang__rong/article/details/85786804

版权

本文介绍了Hive作为基于Hadoop的数据仓库工具，如何将结构化数据映射为数据库表并使用SQL进行查询。内容涵盖了Hive的运行机制，包括元数据存储、与MapReduce的关系以及数据存储模型。此外，还讨论了Hive的使用，如启动服务、创建数据库和表、数据导入、分区操作等，强调了Hive的查询实际上是转化为MapReduce任务执行的。

摘要由CSDN通过智能技术生成

hive介绍

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

hive的运行机制

图示

假设我在hive命令行客户端使用创建了一个数据库（database）myhive，接着又在该数据库中创建了一张表emp。

create database myhive;
use myhive;
create table emp(id int,name string);

那么hive会将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
hive是基于hadoop的，所以数据库和表均表现在hdfs上的目录，数据信息当然也是存储在hdfs上。
对于上面的库和表来说，会在hdfs上创建/user/hive/warehouse/myhive.db这样的目录结构，而表的信息则可以自己上传个文件比如图中的emp.data到/user/hive/warehouse/myhive.db目录下。那么就可以写sql进行查询了（注：写查询语句写的是myhive这张表不删emp.data，如select * from myhive,但是查询到的是emp.data中的信息，两者结合可以理解为传统数据库的某张表），而这些元数据信息都会存储到外部的数据库中（如mysql，当然也可以使用内嵌的derby，不推荐使用derby毕竟是内嵌的不能共享信息）。
然后我再写个查询语句

select id,name from emp where id>2 order by id desc;

那么是怎么执行的呢？查询语句交给hive，hive利用解析器、优化器等（图中表示Compiler）,调用mapreduce模板，形成计划，生成的查询计划存储在 HDFS 中，随后由Mapreduce程序调用，提交给job放在Yarn上运行。

hive与mapreduce关系

hive的数据存储
1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）
2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。
3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。
db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：外部表, 与table类似，不过其数据存放位置可以在任意指定路径
普通表: 删除表后, hdfs上的文件都删了
External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
partition：在hdfs中表现为table目录下的子目录
bucket：桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中

理论总让人头昏，下面介绍hive的初步使用上面的自然就明白了。

hive的使用
虽然可以使用hive与shell交互的方式启动hive

最低0.47元/天解锁文章

rong_code

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据11-Hive运行机制与使用

hive介绍hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 hive的运行机制图示假设我在hive命令行客户端使...
复制链接

扫一扫

专栏目录