Hive知识点总结（持续更新）

最新推荐文章于 2024-07-24 20:46:25 发布

大数据面经

最新推荐文章于 2024-07-24 20:46:25 发布

阅读量1k

点赞数

分类专栏： HIVE 文章标签： hive

本文链接：https://blog.csdn.net/weixin_44361667/article/details/105629085

版权

本文详细介绍了Hive的基本概念，包括其意义、优缺点、架构原理。对比了Hive与数据库的区别，深入探讨了Hive的数据类型、表的类型（如内部表、外部表、分区表和分桶表）以及数据加载过程。此外，还提到了Hive支持的不同文件格式，如TextFile、Orc和Parquet，并强调了文件格式对查询速度的影响。

摘要由CSDN通过智能技术生成

文章目录

hive 基本概念

hive的意义

    hive是一个数据仓库工具，把结构化数据映射成表 支持类sql
    hive就是把hql转换为MapReduce 降低了我们学习成本
    hive存储依赖于hdfs   执行程序运行在yarn上

hive优缺点

优点
简单容易上手
降低了我们学习成本（不用去写MR）
支持自定义函数扩展性高
支持大量数据
缺点
因为底层是MR,所以效率比较低
HQL表达能力有限
延迟高适用于离线业务

hive的架构原理

在这里插入图片描述

hive和数据库比较

数据存储位置
Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。
数据库则可以将数据保存在块设备或者本地文件系统中
数据更新
由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不建议对数据的改写，所有的数据都是在加载的时候确定好的。
而数据库中的数据通常是需要经常进行修改的
执行
Hive中大多数查询的执行是通过 Hadoop 提供的 MapRedu