Hive官网:hive.apache.org
Hive的诞生:解决用MR来开发业务逻辑太过繁琐的问题
Hive的特点:
- 用于解决海量的结构化日志的统计问题,刚开始是作为Hadoop的一个子项目,后面才单独成为一个项目
- Hive是构建在Hadoop之上的数据仓库,适合离线处理
- Hive是一个客户端,非集群,执行时将SQL提交到Hadoop集群上执行
- Hive是一个类SQL的框架,提供HQL语句
- Hive职责:将SQL转化为MR/Spark执行
- Hive底层支持的执行引擎:MR/Spark/Tez
- Hive的表数据存放在HDFS上,元数据放在MySQL上
Hive部署:
必须先安装好mysql
[hadoop@hadoop001 software]$ tar -zxvf hive-1.1.0-cdh5.15.1.tar.gz -C /opt/software/apps/
- 将HIVE_HOME配置到系统环境变量中(~/.bash_profile)
export HIVE_HOME=/opt/software/apps/hive-1.1.0-cdh5.15.1
export PATH=$HIVE_HOME/bin:$PATH