1.Hive 基本概念
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类似SQL的查询功能
- 使用HQL作为查询接口
- 使用HDFS存储
- 使用MapReduce计算
2. Hive的优缺点
优点:
- 减少开发人员的学习成本
- 可以和impala/spark等共享数据
- 支持UDF,自定义存储格式
- 非常适合离线数据处理
缺点:
- Hive实时性差
- Hive效率低
- Hive依托Hadoop为基础, Hadoop本身就是批处理框架, 因此具有高延迟性
总结: Hive非常适合对非实时,离线的,对响应及时性要求不高的海量数据批量计算
3. Hive架构
3.1 从图中可见,HIVE主要可分为三部分 :
-
用户接口 : Client (客户端)
- CLI (hive shell)
- JDBC/ODBC(java访问Hive)
- WEBUI(浏览器访问Hive)
-
元数据 : Metastore