hive

最新推荐文章于 2020-07-01 23:13:07 发布

pluto_peach

最新推荐文章于 2020-07-01 23:13:07 发布

阅读量305

点赞数

文章标签：大数据

本文链接：https://blog.csdn.net/weixin_45415743/article/details/102489868

版权

hive 数据仓库工具

Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。

简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析，而不必使用编程语言开发MapReduce那么麻烦。

Hive就是我们所说的使用传统的sql来分析海量数据的工具。

可以把Hive当成一个“数据库”，它也具备传统数据库的数据单元，数据库（Database/Schema）和表（Table）.但实际上只是Hadoop上的一个工具。

所以从技术角度来看：

hive就是一个翻译器，将传统的sql转化成mapreduce。

或者说：hive是基于mapreduce 的一个上层数据分析框架

Hive的两个组成部分：

1.基于mapreduce

2.使用传统sql的编程思想（类sql语句）

所以结合hive的两大主要组件来看，hive的用处如下：

hive能够用来进行海量数据的存储、查询和离线分析

Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

在使用过程中，只需要将Hive看做是一个数据库就行，本身Hive也具备了数据库的很多特性和功能。

Hive中的数据库概念，本质上仅仅是表的一个目录结构或命名空间。

关注