Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

最新推荐文章于 2023-08-04 00:39:28 发布

心灵小公寓

最新推荐文章于 2023-08-04 00:39:28 发布

阅读量295

点赞数

分类专栏：大数据技术

本文链接：https://blog.csdn.net/xygg0801/article/details/55802859

版权

技术同时被 2 个专栏收录

69 篇文章 0 订阅

订阅专栏

大数据

8 篇文章 0 订阅

订阅专栏

初接触 Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了，我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂，不要紧糊涂的不止你一个，如某个菜鸟的帖子的疑问，when to use Hbase and when to use Hive？....请教了^_^没关系这里我帮大家理清每个技术的原理和思路。

Pig

一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：）

Pig是一种数据流语言，用来快速轻松的处理巨大的数据。

Pig包含两个部分：Pig Interface,Pig Latin。

Pig可以非常方便的处理HDFS和HBase的数据，和Hive一样,Pig可以非常高效的处理其需要做的，通过直接操作Pig查询可以节省大量的劳动和时间。当你想在你的数据上做一些转换，并且不想编写MapReduce jobs就可以用Pig.

Hive

不想用程序语言开发MapReduce的朋友比如DB们，熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

注意Hive现在适合在离线下进行数据的操作，就是说不适合在挂在真实的生产环境中进行实时的在线查询或操作，因为一个字“慢”。相反

起源于FaceBook,Hive在Hadoop中扮演数据仓库的角色。建立在Hadoop集群的最顶层，对存储在Hadoop群上的数据提供类SQL的接口进行操作。你可以用 HiveQL进行select,join,等等操作。

如果你有数据仓库的需求并且你擅长写SQL并且不想写MapReduce jobs就可以用Hive代替。

HBase

HBase作为面向列的数据库运行在HDFS之上，HDFS缺乏随即读写操作，HBase正是为此而出现。HBase以Google BigTable为蓝本，以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。