Hive知识点总结(持续更新)

本文详细介绍了Hive的基本概念,包括其意义、优缺点、架构原理。对比了Hive与数据库的区别,深入探讨了Hive的数据类型、表的类型(如内部表、外部表、分区表和分桶表)以及数据加载过程。此外,还提到了Hive支持的不同文件格式,如TextFile、Orc和Parquet,并强调了文件格式对查询速度的影响。
摘要由CSDN通过智能技术生成

hive 基本概念

hive的意义
    hive是一个数据仓库工具,把结构化数据映射成表 支持类sql
    hive就是把hql转换为MapReduce 降低了我们学习成本
    hive存储依赖于hdfs   执行程序运行在yarn上
hive优缺点

优点
简单 容易上手
降低了我们学习成本(不用去写MR)
支持自定义函数 扩展性高
支持大量数据
缺点
因为底层是MR,所以效率比较低
HQL表达能力有限
延迟高 适用于离线业务

hive的架构原理

在这里插入图片描述

hive和数据库比较

数据存储位置
Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。
数据库则可以将数据保存在块设备或者本地文件系统中
数据更新
由于Hive是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive中不建议对数据的改写,所有的数据都是在加载的时候确定好的。
而数据库中的数据通常是需要经常进行修改的
执行
Hive中大多数查询的执行是通过 Hadoop 提供的 MapRedu

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值