实验六 Hive基于Hadoop的数据仓库

最新推荐文章于 2022-09-16 20:40:16 发布

☜Я☞

最新推荐文章于 2022-09-16 20:40:16 发布

阅读量1.1k

点赞数

一、数据仓库Hive
Hive：是基于hadoop的一个数据仓库
二、为什么用Hive：
1.操作接口是类似SQL语法的HQL
2.不用写MapReduce（查询逻辑复杂，开发难度大成本高）
3.拓展功能方便，也是分布式的
4.有自定义的函数可以使用（延展性）
三、可拓展、延展性、容错性（因为是分布式的）、简单（HQL）、离线处理（日志）、处理大数据集
四、Hive和Hadoop的关系
Hive利用HDFS存储，利用MapReduce查询——→所以上面说Hive用于存储数据集和分析数据，都不是在自身上完成的，都是借助hadoop里的两大核心元素完成的
五、安装：
安装元数据库—mysql。。。用navicat连接mysql。。。Hive的安装配置：
配置HIVE_HOME环境变量…配置元数据信息…
Hive应用。。。先启动Hadoop集群（HDFS和YARN）
创建库、创建表…
六、Hive与Hadoop生态系统中其他组件的关系
1、Hive依赖于HDFS存储数据，依赖MR处理数据；
2、Pig可作为Hive的替代工具，是一种数据流语言和运行环境，适合用于在Hadoop平台上查询半结构化数据集，用于与ETL过程的一部分，即将外部数据装载到Hadoop集群中，转换为用户需要的数据格式；
3、HBase是一个面向列的、分布式可伸缩的数据库，可提供数据的实时访问功能，而Hive只能处理静态数据，主要是BI报表数据，Hive的初衷是为减少复杂MR应用程序的编写工作，HBase则是为了实现对数据的实时访问。
Hive 在这里插入图片描述