《hive编程指南》学习文档（一）

最新推荐文章于 2024-05-27 12:15:00 发布

zisheng_wang_DATA

最新推荐文章于 2024-05-27 12:15:00 发布

阅读量1.7k

点赞数

分类专栏： hive 文章标签： hive HIVE hql hiveql

本文链接：https://blog.csdn.net/zisheng_wang_DATA/article/details/71783535

版权

本文介绍了Hive作为基于Hadoop的数据仓库工具，它提供了类SQL查询功能，适用于大规模数据集的批处理作业。Hive不适用于低延迟应用，其查询过程遵循MapReduce作业执行模型。文章详细讲解了Hive的工作机制，包括MapReduce原理，以及Hive的处理流程、数据存储、元数据管理和查询优化策略。此外，还探讨了Hive与Hadoop、HBase的关系以及Hive的基本语法和操作技巧。

摘要由CSDN通过智能技术生成

第一章基础知识

Hive定义

1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。

3.hive 提供了一个被称为Hive查询语言（简称HiveQL或HQL）的SQL方言，来查询存储在Hadoop集群中的数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。不过，和大多数SQL方言一样，HiveQL并不符合ANSI SQL标准，其和Oracle,MySQL,SQL Server支持的常规SQL方言在很多方面存在差异（不过，HiveQL和MySQL提供的SQL方言最接近）。

适用场景

Hive 构建在基于静态批处理的Hadoop 之上，Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive 并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。

因此，Hive 并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上，Hadoop 监控作业执行过程，然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计，Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

要理解hive，必须先理解hadoop和mapreduce

Hadoop实际上就是谷歌三宝的开源实现，Hadoop MapReduce对应Google MapReduce，HBase对应BigTable，HDFS对应GFS。HDFS（或GFS）为上层提供高效的非结构化存储服务，HBase（或BigTable）是提供结构化数据服务的分布式数据库，Hadoop MapReduce（或Google MapReduce）是一种并行计算的编程模型，用于作业调度。

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，一是软件框架，二是并行处理，三是可靠且容错，四是大规模集群，五是海量数据集。

简单地讲，MapReduce可以做大数据处理。所谓大数据处理，即以价值为导向，对大数据加工、挖掘和优化等各种处理。

MapReduce擅长处理大数据，它为什么具有这种能力呢？这可由MapReduce的设计思想发觉。MapReduce的思想就是“分而治之”。

（1）Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此间几乎没有依赖关系。

（2）Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer，用户可以根据具体问题，通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值，缺省值为1。

1.MapReduce工作机制

这里写图片描述

MapReduce的整个工作过程如上图所示，它包含如下4个独立的实体：

　　实体一：客户端，用来提交MapReduce作业。

　　实体二：JobTracker，用来协调作业的运行。

　　实体三：TaskTracker，用来处理作业划分后的任务。

　　实体四：HDFS，用来在其它实体间共享作业文件。

通过审阅MapReduce的工作流程图，可以看出MapReduce整个工作过程有序地包含如下工作环节：

这里写图片描述

在Hadoop中，一个MapReduce作业通常会把输入的数据集切分为若干独立的数据块，由Map任务以完全并行的方式去处理它们。框架会对Map的输出先进行排序，然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中，整个框架负责任务的调度和监控，以及重新执行已经关闭的任务。

通常，MapReduce框架和分布式文件系统是运行在一组相同的节点上，也就是说，计算节点和存储节点通常都是在一起的。这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使得整个集群的网络带宽被非常高效地利用。

2.MapReduce框架的组成

这里写图片描述

（1）JobTracker

JobTracker负责调度构成一个作业的所有任务，这些任务分布在不同的TaskTracker上（由上图的JobTracker可以看到2 assign map 和 3 assign reduce）。你可以将其理解为公司的项目经理，项目经理接受项目需求，并划分具体的任务给下面的开发工程师。

（2）TaskTracker

TaskTracker负责执行由JobTracker指派的任务，这里我们就可以将其理解为开发工程师，完成项目经理安排的开发任务即可。

3.MapReduce的处理流程

最低0.47元/天解锁文章

zisheng_wang_DATA

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《hive编程指南》学习文档（一）

第一章基础知识Hive定义1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架
复制链接

扫一扫

专栏目录