浅谈Hive

本文介绍了Hive作为数据仓库在Hadoop生态中的角色,对比了Hive与HBase的区别,强调了Hive在OLAP分析中的优势。通过讲解数据仓库的概念,阐述了Hive如何将HDFS上的数据结构化为类SQL的表,并利用MapReduce进行计算。文章还提及了Hive的HA机制以及HiveSQL的基础操作,包括创建数据库、表、视图,以及数据加载和插入等。
摘要由CSDN通过智能技术生成

让我们开门见山来一句介绍,Hive是建立在Hadoop HDFS上的数据仓库基础架构
在Hadoop大数据体系中,Hive和HBase事两种基于Hadoop的不同技术,Hive是一类类SQL的引擎,其数据存放在HDFS上,并运用MapReduce进行计算,适合OLAP事务。而HBase是一种在Hadoop上的NOSQL的键值对数据库,提供数据的实时访问。

好,接下来我们细细地讲。

数据仓库

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time variant)数据集合,用于支持管理决策。下面图为数据仓库体系结构:数据源-》数据存储管理-》分析和挖掘引擎-》应用:

DataWareHouseStruction

那么数据仓库到底有什么用呢?
传统的数据库适用于OLTP(联机事务处理),主要是基本的,日常的事务处理。比如说银行的转账业务,对于扣钱和存钱这两个操作,操作频率很高,而且只能是要么同时成功要么同时失败。
数据仓库系统的主要应用主要是OLAP(联机分析处理),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。而且数据仓库里面的数据时不可更新的,很久以前的数据也会存在(稳定的,面向历史记录的),只有查询操作没有增删查改。
举个例子:搭建一个商品的推荐系统,我们需要用到很多用户以往购买商品的记录。传统数据库中的结构是为了完成交易设计的,并不太支持大量的查询操作。而且传统数据库会不停更改,不一定保留以往数据。有个不错的例子:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值