第一章 第1章HIVE基本概念
1.1什么是HIVE
(是一个计算引擎)
Hive:由Facebook开源用于解决海量结构化日志的数据统计。
Hive是基于Hadoop的一个数据仓库工具(1.可以管理数据2.本身不存储数据,只是提供了一种管理的方式),可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
本质是:将HQL(hive自己的SQL语句)转化成MapReduce程序。(好处:简单、方便、降低了开发者的学习成本)
1.2 Hive的优缺点
1.2.1 优点
1)操作接口采用类SQL语法,提供快速开发的能力(简单,容易上手)。
2)避免了去写MapReduce,减少了开发人员的学习成本。
3)Hive的执行延迟比较高,因此Hive常用于数据分析、对实时性要求不高的场合。
4)Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。(开关虚拟机费时,在这个时间里,很小的数据已经能够处理)
5)Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。(提供的函数是有限,能自定义,能解决的事情就很多了)