官方说明文档:https://www.cloudera.com/documentation/enterprise/5-13-x/topics/hbase.html
Apache Hbase :是一个可扩展,分布式,面向列的数据存储区。Apache HBase提供对HDFS上托管的大型数据集的实时读/写随机访问。
Hive:数据仓库软件可以在分布式存储中读取,写入和管理大型数据集。使用与SQL非常相似的Hive查询语言(HiveQL),查询将转换为一系列通过MapReduce或Apache Spark在Hadoop集群上执行的作业。
Hive Server的连接命令:
$ /usr/lib/hive/bin/beeline
beeline> !connect jdbc:hive2://localhost:10000 cloudera cloudera org.apache.hive.jdbc.HiveDriver
Connecting to jdbc.hive2://localhost:10000
Contected to: Apache Hive (version 1.1.0-cdh5.13.o)
Driver : Hive JDBC (version 1.1.0-cdh5.13.0)
Transaction isolation : TRANSACTION REPEATABLE READ
0: jdbc:hive2://localhost:10000> SHOW TABLES;
show tables;
±----------+
| tab_name |
±----------+
±----------+
No rows selected (0.238 seconds)
0: jdbc:hive2://localhost:10000>
命令行模式,或者说目录模式。可以使用hive执行命令
选项说明:
-e:执行短命令。
-f:执行文件(适合脚本封装)。
-S:安静模式,不现实MR的运行过程。
-hivevar:传参数,专门提供用户自定义变量。
-hiveconf:传参数,包括了hive-site.xml中配置的hive全局变量。
例子1:hive -e 查询
命令: hive -S -e “use default; select * from kimbo_test limit 3;”
例子2:hive -f 执行文件
命令: hive -S -f test_k.hql – 返回3条记录
例子3:hive -f 参数传递,执行文件
命令: hive -hivevar v_date=‘20170630’ -S -f test_par.hql – 返回3条记录
命令: hive -hivevar v_date=‘20170101’ -S -f test_par.hql – 返回0条记录
查看文件内容:
cat test_par.hql
use default; select * from kimbo_test where dt=’${hivevar:v_date}’ limit 3;
cat test_k.hql
use default; select * from kimbo_test limit 3;
Hue:
Hue是Hadoop堆栈中基于Web的交互式查询编辑器,可让您可视化和共享数据。
Impala:
一种高速,低延迟的SQL查询引擎。
Spark:
kudu: