1.hive是数据仓库,在Hadoop基础上处理结构化数据;它驻留在hadoop之上,用户对数据的统计、查询和简单的分析操作;
2.hive不是:
a.关系型数据库;
b.OLTP
c.实时查询和行级更新操作
3.hive特点:
a.表模型存储在database(关系型)中,处理的数据存储在HDFS上;
b.设计模式遵循OLAP
c.它提供了一套类SQL的语言(HiveQL or HQL),用于执行查询;
d.它是简单的、快速的、可扩展的和易伸缩的;
4.hive架构:
a.(用户接口)User Interface:hive提供Web UI 、command line和HD Insight;
b.(元数据):hive选择独立的的数据库(MySQL)用于存储metadata,元数据包含:表的信息、databases信息、表的列信息、字段类型信息和HDFS mapping(映射);
c.(HQL处理引擎)HiveQL Process Engine:HiveQL类似于SQL,用于查询转移的模式信息。它是对MapReduce程序的传统方法的替换之一
d.(执行引擎)Execution Engine:HiveQL流程引擎和MapReduce的连接部分是Hive执行引擎。执行引擎处理查询并生成与MapReduce结果相同的结果
e.(HDFS or HBASE):Hadoop分布式文件系统或HBASE是将数据存储到文件系统中的数据存储技术。
Hive 架构
最新推荐文章于 2024-06-17 20:53:21 发布