Pig和Hive的区别

最新推荐文章于 2020-09-18 17:19:56 发布

yamaxifeng_132

最新推荐文章于 2020-09-18 17:19:56 发布

阅读量1k

点赞数

分类专栏：大数据 - Pig

大数据 - Pig 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

pig的特点
1）专注于于大量数据集分析；
2）运行在集群的计算架构上，Yahoo Pig 提供了多层抽象，简化并行计算让普通用户使用；这些抽象完成自动把用户请求queries翻译成有效的并行评估计划，然后在物理集群上执行这些计划；
3）提供类似 SQL 的操作语法；
4）开放源代码；
Pig与Hive的区别
　　对于开发人员，直接使用Java APIs可能是乏味或容易出错的，同时也限制了Java程序员在Hadoop上编程的运用灵活性。于是Hadoop提供了两个解决方案，使得Hadoop编程变得更加容易。
　　•Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
　　•Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS，并允许使用类似于SQL语法进行数据查询。与Pig一样，Hive的核心功能是可扩展的。
　　Pig和Hive总是令人困惑的。Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。正因为如此，Pig仍然是吸引大量的软件开发人员。
请允许我很无聊的把飞机和火车拿来做比较，因为2者根本没有深入的可比性，虽然两者都是一种高速的交通工具，但是具体的作用范围是截然不同的，就像Hive和Pig都是Hadoop中的项目，并且Hive和pig有很多共同点，但Hive还似乎有点数据库的影子，而Pig基本就是一个对MapReduce实现的工具(脚本)。两者都拥有自己的表达语言，其目的是将MapReduce的实现进行简化，并且读写操作数据最终都是存储在HDFS分布式文件系统上。看起来Pig和Hive有些类似的地方，但也有些不同，来做一个简单的比较：
Language
在Hive中可以执行插入/删除等操作，但是Pig中我没有发现有可以插入数据的方法，请允许我暂且认为这是最大的不同点吧。
Schemas
Hive中至少还有一个“表”的概念，但是Pig中我认为是基本没有表的概念，所谓的表建立在Pig Latin脚本中，对与Pig更不要提metadata了。
Partitions
Pig中没有表的概念，所以说到分区对于Pig来说基本免谈，如果跟Hive说“分区”(Partition)他还是能明白的。
Server
Hive可以依托于Thrift启动一个服务器，提供远程调用。找了半天压根没有发现Pig有这样的功能，如果你有新发现可以告诉我，就好像有人开发了一个Hive的REST
Shell
在Pig 你可以执行一些个 ls 、cat 这样很经典、很cool的命令，但是在使用Hive的时候我压根就没有想过有这样的需求。
Web Interface
Hive有，Pigg的特点

　转载SophieZhou的专栏：

（1）《Apache Pig的一些基础概念及用法总结（1）》

（2）《Apache Pig的一些基础概念及用法总结（2）》

（3）《Apache Pig中文教程（进阶）》

（4）《使用Apache Pig时应该注意/避免的操作或事项》

yamaxifeng_132

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pig和Hive的区别

pig的特点1）专注于于大量数据集分析；2）运行在集群的计算架构上，Yahoo Pig 提供了多层抽象，简化并行计算让普通用户使用；这些抽象完成自动把用户请求queries翻译成有效的并行评估计划，然后在物理集群上执行这些计划；3）提供类似 SQL 的操作语法；4）开放源代码；Pig与Hive的区别　　对于开发人员，直接使用Java APIs可能是乏味或容易出错的，同时也限
复制链接

扫一扫