【组件】大数据常考题之介绍一下 Hive

最新推荐文章于 2024-07-28 16:45:11 发布

和风与影

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量355

点赞数

分类专栏：大数据数据仓库 Hive 文章标签：大数据数据仓库 hive

本文链接：https://blog.csdn.net/weixin_45545090/article/details/124304345

版权

大数据同时被 3 个专栏收录

76 篇文章 8 订阅

订阅专栏

数据仓库

22 篇文章 6 订阅

订阅专栏

Hive

17 篇文章 4 订阅

订阅专栏

这是关于大数据常用组件的第二篇文章。Hive 是大数据开发的必会技能。面试中经常被问到的问题就是 Hive 是什么，或者请介绍一下 Hive，今天的文章主要对这个问题做出讲解。同样，这个问题的答案可以在官网寻找。

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

翻译一下就是：

Apache Hive ™ 数据仓库软件支持使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。将结构映射到已经存储的数据上。提供了一个命令行工具和 JDBC 驱动程序来将用户连接到 Hive。

要点：

解决海量结构化日志的数据统计分析工具。
数据仓库软件。
提供了 SQL 操作分布式存储的大型数据集。
将数据映射为逻辑表。

Hive 的本质就是将 HQL 转换成 MapReduce 程序，方便使用。Hive 处理的数据存储在 HDFS，分析数据的底层实现 MapReduce，执行程序运行在 Yarn 上。

优点：

操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。
避免了去写 MapReduce，减少开发人员的学习成本。
Hive 优势在于处理大数据，用于对实时性要求不高的大数据分析，对于处理小数据没有优势。
Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

缺点：

Hive的HQ表达能力有限，迭代式算法无法表达，数据挖掘方面不擅长（MapReduce 的设计思想限制）。
Hive的效率比较低，Hive 自动生成的 MapReduce 作业，通常情况下不够智能化，调优比较困难，粒度较粗。

和数据库的比较：Hive 除了使用类 SQL 的查询语言，与数据库没有相似之处。

欢迎关注公众号每天更新大数据面试题。
在这里插入图片描述

和风与影

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【组件】大数据常考题之介绍一下 Hive

这是关于大数据常用组件的第二篇文章。Hive 是大数据开发的必会技能。面试中经常被问到的问题就是 Hive 是什么，或者请介绍一下 Hive，今天的文章主要对这个问题做出讲解。同样，这个问题的答案可以在官网寻找。The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Stru
复制链接

扫一扫

专栏目录