【组件】大数据常考题之介绍一下 Hive

22 篇文章 6 订阅
17 篇文章 4 订阅

 这是关于大数据常用组件的第二篇文章。Hive 是大数据开发的必会技能。面试中经常被问到的问题就是 Hive 是什么,或者请介绍一下 Hive,今天的文章主要对这个问题做出讲解。同样,这个问题的答案可以在官网寻找。

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

翻译一下就是:

Apache Hive ™ 数据仓库软件支持使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。将结构映射到已经存储的数据上。提供了一个命令行工具和 JDBC 驱动程序来将用户连接到 Hive。

要点:

  • 解决海量结构化日志的数据统计分析工具
  • 数据仓库软件。
  • 提供了 SQL 操作分布式存储的大型数据集
  • 将数据映射为逻辑表。

  Hive 的本质就是将 HQL 转换成 MapReduce 程序,方便使用。Hive 处理的数据存储在 HDFS,分析数据的底层实现 MapReduce,执行程序运行在 Yarn 上。

优点:

  1. 操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)。
  2. 避免了去写 MapReduce,减少开发人员的学习成本。
  3. Hive 优势在于处理大数据,用于对实时性要求不高的大数据分析,对于处理小数据没有优势。
  4. Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

缺点:

  1. Hive的HQ表达能力有限,迭代式算法无法表达,数据挖掘方面不擅长(MapReduce 的设计思想限制)。

  2. Hive的效率比较低,Hive 自动生成的 MapReduce 作业,通常情况下不够智能化,调优比较困难,粒度较粗。

和数据库的比较:Hive 除了使用类 SQL 的查询语言,与数据库没有相似之处。

欢迎关注公众号每天更新大数据面试题。
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值