Hive是基于Hadoop的数据仓库软件
数据库适用于OLTP(联机事务管理-增删改查的操作)__中的数据时实时更新的
数据仓库适用于OLAP(联机事务分析-对历史数据进行分析或者汇总)
特性:灵活方便的extract transform load
支持 Tez(默认引擎) spark多种引擎
可以直接访问HDFS HBase
应用场景----->数据挖掘 非实时性分析 数据汇总 数据仓库
优点
高可靠(集群存储 一两个错误没影响)高容错 类似SQL语法 可扩展 多接口
接口:Beeline JDBC Thrift Python ODBC
Hive运行过程
Client提交HQL命令
Tez执行查询
YARN为集群中的应用程序分配资源 并未YARN队列中的Hive作业启用授权
Hive根据表类型更新HDFS或Hive仓库中的数据
Hive通过JDBC连接返回查询结果
数据库--->区分不同业务的数据
表 |
分区(按照字段|进行划分 相同的数据放到同一个分区) -桶(利用hash分区方式放到不同桶) 倾斜数据 正常数据
|
|
分区数量不固定 建表时指定桶个数 桶内可排序
内部表create table 创建外部表 create external 表名 临时表create temporary存放临时结果或中见结果 用于过度
会将数据移动到数据仓库指定的路径 localtion指定放在那个目录 可无