一、数据仓库Hive
Hive:是基于hadoop的一个数据仓库
二、为什么用Hive:
1.操作接口是类似SQL语法的HQL
2.不用写MapReduce(查询逻辑复杂,开发难度大 成本高)
3.拓展功能方便,也是分布式的
4.有自定义的函数可以使用(延展性)
三、可拓展、延展性、容错性(因为是分布式的)、简单(HQL)、离线处理(日志)、处理大数据集
四、Hive和Hadoop的关系
Hive利用HDFS存储,利用MapReduce查询——→所以上面说Hive用于存储数据集和分析数据,都不是在自身上完成的,都是借助hadoop里的两大核心元素完成的
五、安装:
安装元数据库—mysql。。。用navicat连接mysql。。。Hive的安装配置:
配置HIVE_HOME环境变量…配置元数据信息…
Hive应用。。。先启动Hadoop集群(HDFS和YARN)
创建库、创建表…
六、Hive与Hadoop生态系统中其他组件的关系
1、Hive依赖于HDFS存储数据,依赖MR处理数据;
2、Pig可作为Hive的替代工具,是一种数据流语言和运行环境,适合用于在Hadoop平台上查询半结构化数据集,用于与ETL过程的一部分,即将外部数据装载到Hadoop集群中,转换为用户需要的数据格式;
3、HBase是一个面向列的、分布式可伸缩的数据库,可提供数据的实时访问功能,而Hive只能处理静态数据,主要是BI报表数据,Hive的初衷是为减少复杂MR应用程序的编写工作,HBase则是为了实现对数据的实时访问。
实验六 Hive基于Hadoop的 数据仓库
最新推荐文章于 2022-09-16 20:40:16 发布