此博文是自己学习hive的一些学习心得,可能有些地方理解的不对,如有不妥之后,忘能不吝赐教!!!
目录
hive是什么
hive从本质上来说是一个仓库,是一个分析框架,它本身不存储数据,连最起码的元数据信息也不存储。
它可以通过mysql或(Derby)对存放在hdfs上面的数据进行映射,其中元信息存放在mysql或Derby中。
它完全依赖HDFS和MapReduce。
数据操作
经过映射后的数据,在hive看来就可以认为是一张类似数据库中的一张表了,可以使用HQL(类似SQL)语言对数据进行操作。hive在0.14版本之前是不支持行级别的插入的,每次更新必须全量覆盖;在0.14版本之后,默认行级别的插入、更新、删除操作也是不支持的,需要更改配置实现。
执行原理
HQL执行时,是通过hive内置的HQL解析引擎,将HQL预计翻译成一个或多个MapReduce任务执行,MapReduce执行速度毕竟慢,由此可以看出,H