1.概念
是建立在hadoop-hdfs上的一个数据仓库,存放在hdfs的数据仓库。(mysql存放在本地硬盘,windows的本地文件中),
本质是披着MapReduce的一个工具(分析引擎)可以将hql翻译成mapreduce作业。
允许不熟悉mapreduce开发的人员可以借助hive来存储在hdfs的海量数据。
hadoop的客户端工具,不一定部署带集群当中。
hive没有专门的数据存储格式
存储结构:数据 、文件、表、视图、索引
2.hive到底是什么?
- 查询引擎:把hql(类sql语句)转化陈mr作业在hadoop中去执行。
- 数据仓库:底层的存储基于hdfs
3.ETL
数据的提取、转化、加载
4.OLTP与OLAP
1.离线事物处理(mysql)
2.离线事物处理(hive)
5.hive与hadoop之间的关系
hive相当于hadoop的可视化工具,主要是为不会java的程序员使用,部署时,不一定放在集群的管理节点中,也可以放在某个节点上。