Hive基本概念
是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。
Hive的意义是什么
- 背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。
- 意义(目的):降低程序员使用hadoop的难度。降低学习成本。
Hive可以对数据进行存储与计算
存储使用HDFS存储
计算使用MapReduce进行计算
Hive的特性
- 1、扩展性 : Hive的扩展性与集群的扩展性相同
- 2、延展性:Hive支持用户自定义函数,编写符合自己业务需求的函数。
- 3、容错性:节点出现问题(宕机/断电)SQL仍可完成执行。
Hive缺点
每次的执行开销较大,任务运行时间较长,延时较高。
Hive的内部组成架构
- 元数据:描述数据的数据(属性)
- 表名称、字段名,字段的数据类型。
- 内部执行流程:
解释器 -> 编译器 -> 优化器 -> 执行器