一. Pig简介:
Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作。
Pig方便不熟悉Java的用户,使用一种较为简便的类似于sql的面相数据流的语言Pig latin进行数据处理。
Pig latin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言。
Pig可以看做是Pig latin到map-reduce的映射器。
二. Pig配置:
1. 下载并解压pig安装包
2. 设置环境变量,用set命令检查环境变量
export PIG_HOME=/cloud/pig
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$PIG_HOME/bin
3. 本地模式:所有文件和执行过程都在本地,一般用于测试程序
启动grunt shell: pig -x local
4. MapReduce模式:实际工作模式
4.1) 设置PIG_CLASSPATH环境变量
export JAVA_HOME=/usr/java
export HADOOP_HOME=/cloud/hadoop
export PIG_HOME=/cloud/pig
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$PIG_HOME/bin
export PIG_CLASSPATH=$HADOOP_HOME/conf
4.2) 启动grunt shell: pig
三. pig的三种运行方式
1. grunt shell命令:
2. 脚本方式:
脚本方式本质上是grunt shell方式中命令的集合,用脚本文件存储命令序列。一个pig脚本通常以“.pig”后缀作为pig脚本的标志。
如:script.pig