1.Hive概念概述:
- 基于Hadoop的开源的数据仓库工具,用于处理海量结构化数据。
- Hive把HDFS中结构化的数据映射成表。
- Hive通过把HiveSQL进行解析和转换,最终生成一系列在hadoop上运行的mapreduce任务,通过执行这些任务完成数据分析与处理。
2.hive的优点:
- 操作接口采用类似SQL的语法,上手容易
- hive对MapReduce进行了包装,开发人员不需要写MapReduce,减少了学习成本
- hive的优势在于处理大数据,针对小数据处理的优势不大
3. hive的缺点:
- 由于hive主要用于数据分析,因此延时比较高,不适用于实时场景,适用于离线大数据分析
- Hive的HQL表达能力有限
(1)迭代式算法无法表达(MapReduce本身就不支持)
(2)数据挖掘方面不擅长 - Hive的效率比较低
(1)Hive自动生成的MapReduce作业,通常情况下不够智能化
(2)Hive调优比较困难,粒度较粗