HIVE-所学复盘-1 - HIVE、MAPREDUCE基本概念

最新推荐文章于 2022-11-30 17:20:10 发布

侯贼漂亮

最新推荐文章于 2022-11-30 17:20:10 发布

阅读量431

点赞数 1

本文链接：https://blog.csdn.net/weixin_44954864/article/details/97496984

版权

本文介绍了HIVE作为Hadoop数据仓库工具的工作原理，包括它如何利用MapReduce进行计算，与关系型数据库的区别，如存储系统、操作特性等。此外，还概述了MapReduce的三个主要阶段，并提到了HIVE的数据类型和CLI使用。

摘要由CSDN通过智能技术生成

1. 零零散散的概念

1. 系统们：
（1）Hadoop生态系统实现了特别的计算模型 Mapreduce，其可以将计算任务（例如查询）分割为多个处理任务，分散到一群硬件机器上，再将这些任务的计算结果合并，得最终成果。HIVE会监控每一个任务，确保其完成。
（2）文件系统：Hadoop 分布式文件系统（HDFS）。每个数据块（block）会被冗余多份。
（3）HIVE 是基于 Hadoop的一个数据仓库工具，可将结构化的数据文件映射为一张数据库表，且提供了一系列工具来数据提取、转化、加载（ETL）。

2. HIVE 与关系型数据库的区别：
（1）存储系统：HIVE 使用 HDFS，关系型数据库使用本地的文件系统。
（2）HIVE 不支持记录级别的更新、插入或删除，但是可以通过查询生成新表或将查询结果导入到文件。
（3）关系型数据库为实时查询设计，HIVE为海量数据挖掘准备，故实时性较差。
（4）HIVE易扩展存储能力和计算能力。
（5）HIVE中没有键的概念，但是可以对表建立索引。
（6）传统数据库为写时模式，写入数据时检查数据模式；HIVE为读时模式，在查询时验证模式。

3. 关于 Mapreduce：
（1&#