文章目录
hive 基本概念
hive的意义
hive是一个数据仓库工具,把结构化数据映射成表 支持类sql
hive就是把hql转换为MapReduce 降低了我们学习成本
hive存储依赖于hdfs 执行程序运行在yarn上
hive优缺点
优点
简单 容易上手
降低了我们学习成本(不用去写MR)
支持自定义函数 扩展性高
支持大量数据
缺点
因为底层是MR,所以效率比较低
HQL表达能力有限
延迟高 适用于离线业务
hive的架构原理
hive和数据库比较
数据存储位置
Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。
数据库则可以将数据保存在块设备或者本地文件系统中
数据更新
由于Hive是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive中不建议对数据的改写,所有的数据都是在加载的时候确定好的。
而数据库中的数据通常是需要经常进行修改的
执行
Hive中大多数查询的执行是通过 Hadoop 提供的 MapRedu