2021SC@SDUSC
一、Pig是什么?
Pig 是Apache平台下的一个免费开源项目,是MapReduce的一个抽象。它是一个工具,用于分析较大的数据集,并将其表示为数据流。常与Hadoop一起使用,可以使用Pig在Hadoop中执行所有的数据处理操作。
Pig提供的一种SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
二、Pig的特点
-
丰富的运算符集 - 它提供了许多运算符提供各种操作。
-
易于编程 - Pig Latin与SQL类似,是SQL-LIKE。
-
优化 执行- Apache Pig中的任务自动优化其执行。
-
可扩展性