实验六 Hive基于Hadoop的 数据仓库

一、数据仓库Hive
Hive:是基于hadoop的一个数据仓库
二、为什么用Hive:
1.操作接口是类似SQL语法的HQL
2.不用写MapReduce(查询逻辑复杂,开发难度大 成本高)
3.拓展功能方便,也是分布式的
4.有自定义的函数可以使用(延展性)
三、可拓展、延展性、容错性(因为是分布式的)、简单(HQL)、离线处理(日志)、处理大数据集
四、Hive和Hadoop的关系
Hive利用HDFS存储,利用MapReduce查询——→所以上面说Hive用于存储数据集和分析数据,都不是在自身上完成的,都是借助hadoop里的两大核心元素完成的
五、安装:
安装元数据库—mysql。。。用navicat连接mysql。。。Hive的安装配置:
配置HIVE_HOME环境变量…配置元数据信息…
Hive应用。。。先启动Hadoop集群(HDFS和YARN)
创建库、创建表…
六、Hive与Hadoop生态系统中其他组件的关系
1、Hive依赖于HDFS存储数据,依赖MR处理数据;
2、Pig可作为Hive的替代工具,是一种数据流语言和运行环境,适合用于在Hadoop平台上查询半结构化数据集,用于与ETL过程的一部分,即将外部数据装载到Hadoop集群中,转换为用户需要的数据格式;
3、HBase是一个面向列的、分布式可伸缩的数据库,可提供数据的实时访问功能,而Hive只能处理静态数据,主要是BI报表数据,Hive的初衷是为减少复杂MR应用程序的编写工作,HBase则是为了实现对数据的实时访问。
Hive在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值