Hive,mysql,HDFS联系-CSDN博客

 一.什么是Hive与其特点

官网介绍：The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL 。也就是说：hive数据仓库软件使用sql读取、写入和管理驻留在分布式存储中的大型数据集。说明Hive的开发语言是SQL,而实际我们常见的分布式计算框架也就spark，MapReduce,Storm等，那么Hive如何使用SQL语言去进行分布式计算呢?

1.1Hive可以看做是MapReduce的客户端

因为Hive的底层运算是MapReduce计算框架，Hive只是将可读性强，容易编程的SQL语句通过Hive软件转换成MR程序在集群上执行。hive可以看做mapreduce客户端，能用mapreduce程序完成的任务基本都可以对应的替换成hql（Hive SQL）编写的hive任务。所以因为hadoop和hdfs的本身设计的特点，也限制了hive所能胜任的工作特性。Hive最大的限制特点就是不支持基于行记录的更新，删除，增加。但是用户可以通过查询生成新表，或者将查询结果导入文件中来“实现”hive基于行记录的操作。

1.2.Hive是批处理系统

因为mapreduce是批处理系统，所以hive也是基于海量数据的批处理的。同样因为mapreduce具有高延迟（1.启动时间长2.中间结果放在本地而非内存中），造成hive执行也耗时过长。

1.3.hive不支持事务

所以不支持OLTP(联机事务处理)，更适用与OLAP(联机分析处理)。

二.hive和hdfs,mysql，mapreduce之间的关系
1.举例说明hive，mysql和hdfs之间的关系
下面是一个完成的流程，从hive中创建表，到往表里导入数据，1-9说明了hive,mysql，hdfs之间的流程。

2.要点总结
1.Hive不存储数据，Hive需要分析计算的数据，以及计算结果后的数据实际存储在分布式系统上，如HDFS上。

2.Hive某种程度来说也不进行数据计算，只是个解释器，只是将用户需要对数据处理的逻辑，通过SQL编程提交后解释成MapReduce程序，然后将这个MR程序提交给Yarn进行调度执行。所以实际进行分布式运算的是MapReduce程序

3.因为Hive为了能操作HDFS上的数据集，那么他需要知道数据的切分格式，如行列分隔符，存储类型，是否压缩，数据的存储地址等信息。为了方便以后操作所以他需要将这些信息通过一张表存储起来，然后将这张表（元数据）存储到mysql中。为了啥存储到mysql里（实际是远程mysql）,因为hive本身就是一个解释器，所以他不存储数据。