大数据分析引擎:Hive
大数据的终极目标:使用SQL语句处理大数据
1、Hadoop的终极目标:使用SQL语句来处理大数据
()Hive:支持SQL;
()Pig:支持PigLatin
2、Spark的体系架构中:
(*)Spark SQL:类似Hive
支持SQL、支持DSL语句
3、另一个impala
一、什么是Hive
1、Hive是基于HDFS之上的一个数据仓库
Hive HDFS
表 目录
数据 文件
分区 目录
桶表 文件
2、Hive基于Hadoop之上的一个数据分析引擎
Hive是一个翻译器
Hive 2.x以前:SQL---->Hive------>Map Reduce
Hive2.x以后:推荐使用Spark作为SQL的执行引擎(只针对Hadoop 3.x以前)
推荐《Hive on Spark文档》
3.Hive支持SQL的一个子集(HQL)
二、Hive体系架构
三、安装配置Hive
tar -zxvf apache-hive-2.3.0-bin.tar.gz -C ~/training/
设置环境变量
HIVE_HOME=/root/training/apache-hive-2.3.0-bin
export HIVE_HOME
PATH=$HIVE_HOME/bin:$PATH
export PATH
核心配置文件: conf/hive-site.xml
1、嵌入模式
(*)不需要MySQL的支持,使用Hive的自带的数据库Derby
(*)局限:只支持一个连接
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby:;databaseName=metastore_db;create=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>org.apache.derby.jdbc.EmbeddedDriver</value>
</property>
<property>
<name>hive.metasto