Hive 基本概念（特点，架构，数据存储，OLTP，OLAP）

最新推荐文章于 2024-05-08 08:47:06 发布

.道不虚行

最新推荐文章于 2024-05-08 08:47:06 发布

阅读量2k

点赞数 2

分类专栏： hadoop 文章标签：大数据 hive olap oltp

本文链接：https://blog.csdn.net/weixin_44387652/article/details/114387599

版权

Hive 基本概念（特点，架构，数据存储，OLTP，OLAP）

1、Hive 简介
2、Hive 和 RDBMS 的对比
3、Hive 架构
4、Hive 的数据存储
- 4.1、内部表、外部表、分区表和 Bucket 表
5、学习内容

1、Hive 简介

1.1、什么是 Hive

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。
Hive 的本质是将 HQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。

数据仓库之父比尔·恩门（Bill Inmon）在 1991 年出版的“Building the Data Warehouse”（《建立数据仓库》）一书中所提出的定义被广泛接受——数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。

Hive 依赖于 HDFS 存储数据，Hive 将 HQL 转换成 MapReduce 执行。所以说 Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架，对存储在 HDFS 中的数据进行分析和管理。
在这里插入图片描述

1.2、为什么使用 Hive

直接使用 MapReduce 所面临的问题：
（1）人员学习成本太高；
（2）项目周期要求太短；
（3）MapReduce 实现复杂查询逻辑开发难度太大。

为什么要使用 Hive：
（1）更友好的接口：操作接口采用类 SQL 的语法，提供快速开发的能力；
（2）更低的学习成本：避免了写 MapReduce，减少开发人员的学习成本；
（3）更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数。

1.3、Hive 特点

优点：
（1）可扩展性，横向扩展：Hive 可以自由的扩展集群的规模，一般情况下不需要重启服务；
横向扩展：通过分担压力的方式扩展集群的规模；
纵向扩展：一台服务器 cpu i7-6700k 4 核心 8 线程，8 核心 16 线程，内存 64G => 128G。
（2）延展性：Hive 支持自定义函数，用户可以根据自己的需求来实现自己的函数；
（3）良好的容错性：可以保障即使有节点出现问题，SQL 语句仍可完成执行。

缺点：
（1）

最低0.47元/天解锁文章

.道不虚行

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
Hive 基本概念（特点，架构，数据存储，OLTP，OLAP）

Hive 基本概念（特点，架构，数据存储，OLTP，OLAP）1、Hive 简介1.1、什么是 Hive1.2、为什么使用 Hive1.3、Hive 特点1.4、数据处理的两大级别（OLAP、OLTP）2、Hive 和 RDBMS 的对比3、Hive 架构3.1、用户接口3.2、Thrift Server3.3、元数据存储3.4、Driver：编译器（Compiler），优化器（Optimizer），执行器（Executor）3.5、执行流程4、Hive 的数据存储4.1、内部表、外部表、分区表和 Buck
复制链接

扫一扫

专栏目录