Pig的安装及基本使用

一、PIG介绍

  Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Pig在Hadoop中执行所有的数据处理操作。

要编写数据分析程序,Pig提供了一种称为 Pig Latin 的高级语言。该语言提供了各种操作符,程序员可以利用它们开发自己的用于读取,写入和处理数据的功能。

要使用  Pig 分析数据,程序员需要使用Pig Latin语言编写脚本。所有这些脚本都在内部转换为Map和Reduce任务。Apache Pig有一个名为 Pig Engine 的组件,它接受Pig Latin脚本作为输入,并将这些脚本转换为MapReduce作业。

引:https://www.w3cschool.cn/apache_pig/apache_pig_overview.html

二、PIG安装

1.解压pig安装包,并将pig-0.13.0移动到pig,使用更加方便

[hadoop@MASTER ~]$ tar xf pig-0.13.0.tar.gz

[hadoop@MASTER ~]$ mv pig-0.13.0 pig

2.配置PIG环境变量

[hadoop@MASTER ~]$ vim .bash_profile

#pig

export PIG_HOME=/home/hadoop/pig

export PATH=$PATH:$PIG_HOME/bin:$PIG_HOME/conf

#添加PIG_CLASSPATH,使PIG识别hadoop的NameNode和JobTracker

export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop

使环境变量生效

[hadoop@MASTER ~]$ source .bash_profile 

3.创建日志文件目录,否则目录会在hadoop用户目录下生成

[hadoop@MASTER ~]$ mkdir -p /home/hadoop/pig/logs

[hadoop@MASTER ~]$ vim /home/hadoop/pig/conf/pig.properties

pig.logfile=/home/hadoop/pig/logs

4.查看PIG是否安装成功
Hadoop集群已启动

start-all.sh

帮助信息出现,安装完成。

三、PIG运行模式

Local模式

本地模式下,Pig运行在单个JVM中,访问本地文件系统,该模式用于测试或处理小规模数据集

[hadoop@MASTER ~]$ pig -x local
#退出
grunt> quit

MapReduce模式

在MapReduce模式下,Pig将查询翻译为MapReduce作业,然后在Hadoop集群上执行

[hadoop@MASTER ~]$ pig -x mapreduce
#退出
grunt> quit

四、PIG Latin介绍

这里就不写了,介绍一篇博文吧!很详细!

http://www.aboutyun.com/thread-6713-1-1.html

也可以去参考w3cschool中PIG的详细教程

https://www.w3cschool.cn/apache_pig/

五、实例

要求

在本地文件系统创建三个文件student.txt,course.txt,sc.txt,分别存储学生信息,课程信息,选课信息。实现找出不及格的学生,并且输出学生的姓名和不及格课程和成绩。样例数据如下:

201000101:李勇:男:20:计算机软件与理论
201000102:王丽:女:19:计算机软件与理论
201000103:刘花:女:18:计算机应用技术
201000104:李肖:男:19:计算机系統结构
201000105:吴达:男:19:计算机系统结构
201000106:滑可:男:19:计算机系统结构

学生信息student.txt(学号,姓名,性别,年龄,专业)

01,English,4
02,Data structure,2
03,DataBase,2
04,DB Design,3
05,C Language,3
06,Principles of Network,3
07,0S,3

 课程信息course.txt(课号,课程名,学分)

201000101,01,92
201000101,03,84
201000102,01,90
201000102,02,94
201000102,03,82
201000103,01,72
201000103,02,90
201000104,03,58

选课信息sc.txt(学号,课号,成绩)

过程

1.三个要处理的文件信息

[hadoop@MASTER test1]$ vim student.txt

201000101:李勇:男;20;计算机软件与理论

201000102:王丽:女:19:计算机软件与理论

201000103:刘花:女:18:计算机应用技术

201000104:李肖:男:19:计算机系統结构

201000105:吴达:男:19:计算机系统结构

201000106:滑可:男:19:计算机系统结构

[hadoop@MASTER test1]$ vim course.txt

01 English,4

02 Data structure,2

03 DataBase,2

04 DB Design,3

05 C Language,3

06 Principles of Network,3

07 0S,3

[hadoop@MASTER test1]$ vim sc.txt

201000101,01,92

201000101,03,84

201000102,01,90

201000102,02,94

201000102,03,82

201000103,01,72

201000103,02,90

201000104,03,58

2.在HDFS上创建pig目录,用于存放三个要处理的文件

[hadoop@MASTER ~]$ hadoop fs -mkdir /pig

3.PIG在mapreduce模式下运行

执行时,先查看文末红字提示,否则会报错!

[hadoop@MASTER ~]$ pig -x mapreduce
#上传本地数据到HDFS
grunt> fs -copyFromLocal /home/hadoop/test1/student.txt /pig

grunt> fs -copyFromLocal /home/hadoop/test1/sc.txt /pig

grunt> fs -copyFromLocal /home/hadoop/test1/course.txt /pig

#将student.txt加载到Pig中,以:分割,指定五列Sno,Sname,Ssex,Sage,Sdept
grunt> A= load '/pig/student.txt' using PigStorage(':') as (Sno:chararray,Sname:chararray,Ssex:chararray,Sage:int,Sdept:chararray);

#查看经过处理后的信息A
grunt> dump A;

grunt> B= load '/pig/sc.txt' using PigStorage(',') as (Sno:chararray,Cno:chararray,Grade:int);
grunt> dump B;
grunt> C= load '/pig/course.txt' using PigStorage(',') as (Cno:chararray,Cname:chararray,Ccredit:int);
grunt> dump C;

#根据条件从B中选择所需的信息
grunt> D= Filter B By Grade <60;

#组合来自A和D关系的记录
grunt> E= Join D By Sno,A By Sno;

#组合来自E和C关系的记录
grunt> F= Join E By Cno,C By Cno;

#基于列数据生成指定的数据转换
grunt> G= foreach F generate Sname,Cname,Grade;
grunt> dump G;
(李肖,DataBase,58)
输出不及格学生的姓名和不及格课程和成绩
#退出
grunt> quit

 执行最后一步dump G或者dump A等可能出现如下情况,但最后会输出正确结果:

关于10020端口拒绝连接的问题的解决:

完善如下红字

[hadoop@MASTER ~]$ vim /home/hadoop/hadoop/etc/hadoop/mapred-site.xml

<configuration>
      <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                <final>true</final>
        </property>
        <property>
        <name>mapreduce.jobhistory.address</name>
        <value>MASTER:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>MASTER:19888</value>
    </property>

</configuration>

然后开启JobHistoryServer

[hadoop@MASTER ~]$ mr-jobhistory-daemon.sh start historyserver

参考

[1]https://bit1129.iteye.com/blog/2170665

[2]https://www.w3cschool.cn/apache_pig/

[3]http://www.aboutyun.com/thread-6713-1-1.html

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Hadoop是一个用于分布式存储和处理大规模数据的开源软件框架。下面是关于Hadoop安装使用和收获的一些建议和信息: 1. 安装Hadoop:在安装Hadoop之前,确保你的系统满足Hadoop的要求,比如Java环境和网络连接。然后,下载合适版本的Hadoop并按照官方文档提供的步骤进行安装和配置。 2. 配置Hadoop集群:在配置Hadoop集群之前,你需要了解Hadoop基本组件和配置文件。主要包括核心组件(HDFS和YARN)以及相关的配置文件(如hdfs-site.xml和yarn-site.xml)。根据你的需求,调整这些配置文件以实现最佳性能。 3. 使用Hadoop:一旦你安装和配置好了Hadoop,你就可以开始使用它来处理大规模数据了。Hadoop提供了多种方式来处理数据,包括MapReduce编程模型、Hive和Pig等高级数据处理工具,还有Spark等基于Hadoop的框架。 4. 收获与问题解决:通过使用Hadoop,你可以处理大规模数据并从中获得一些收获。这些收获可能包括更好的数据分析、更准确的预测或更高效的资源利用。在使用Hadoop的过程中,你可能会遇到一些问题,比如性能调优、故障排除等。要善于使用Hadoop社区和相关文档来解决这些问题。 总之,安装使用Hadoop需要一定的技术知识和经验,但它可以为你提供处理大数据的强大能力和灵活性。希望以上信息对你有帮助!如果你还有其他问题,请随时问我。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

real向往

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值