Apache PIG学习记录文档

最新推荐文章于 2024-10-09 09:32:21 发布

我一直都在你身边

最新推荐文章于 2024-10-09 09:32:21 发布

阅读量492

点赞数

分类专栏：大数据文章标签： apahe pig 大数据数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woyizhidouzai0505/article/details/50830702

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、数据类型

简单类型：传承自Java中的pig包

复杂类型：Map、Tuple、Bag

注：Bag是一个无序的tuple集合，且不需要加载到内存中

2、Null值

此处与sql中的null概念一样，但是和C、Java、Python中的不同。此处null的含义是说这个值是未知的，这可能是数据缺失或是数据处理出错造成；但是在程序语言中null则表示未被赋值或没有指向一个有效的地址或对象。

3、模式

支持显式定义模式和隐式转换，默认类型是bytearray类型

类型转换：所有类型不允许转换成bytearray类型，但是将bytearray类型转换成其他类型是允许的。

Int、long、float、double、chararray，可以相互转换，但是推荐最好是从低转到高，不会造成数据流失；反之数据会流失。

4、基础知识

1.关系变量或字段名称必须以字母字符开头（与编程语言相比，少了下划线），之后可以跟上零个或多个字母、数字、或者下划线。

2.大小写敏感：关键字不敏感，其他敏感

3.注释：--（单行注释）、/**/（多行注释）

4.加载：load ‘xxx’ 【as 模式 using 加载函数】

5.存储：store processed into ‘xxx’ 【using 加载函数】

6.输出：dump processed；

7.循环遍历，每条记录只保留指定字段：foreach 关系变量 generate 字段名；

5、关系操作

映射：

1、map使用#：avg = foreach A generate bat#’batting_average’;

2、tuple使用.:B = foreach A generate t.x,t.$1;

3、bag无法明确：映射时可以通过创建一个包含用户需要的字段的bag：

A = load ‘input’ as (b:bag{t:(x:int, y:int)});

B = foreach A generate b.x;

Filter使用语句：

notstsrt = filter divs by not symbol matches ‘CM.*’;

布尔操作符优先执行顺序：

not > and > or

Group使用语句：

daily = load ‘NYSE_daily’ as (exchange, stock, date, dividends);

grpd = group daily by (exchange, stock);

或者grpd = group daily all;

或者grpd = group daily exchange;

Avg = foreach grpd generate group, AVG(daily.dividends);

Describe grpd;

Order by:

daily = load ‘NYSE_daily’ as (exchange:chararray, symbol:chararray,date:chararray, open:float, high:float, low,float, close:float, volume:int, adj_close:float);

byclose = order daily by close desc,open;

Dump byclose;

Distinct:

daily = load ‘NYSE_daily’ as (exchange:chararray, symbol:chararray);

uniq = distinct daily;

Join:

Daily = load ‘NYSE_daily’ as (exchange, symbol, date, open, high, low, close, volume, adj_close);

Divs = load ‘NYSE_dividends’ as (exchange, symbol, date, dividends );

Jnd = join daily by(symbol, date),divs by (symbol, date);

(Join自连接时允许的，但这时数据会被加载两次)

Limit:

divs = load ‘NYSE_dividends’;

First10 = limit divs 10;

Sample:(样本抽取)

divs = load ‘NYSE_dividends’;

some = sample divs 0.1; --以10%的比例抽取样本

Parallel:

指定数据收集后如何进行Reduce阶段的并行数据处理，附加在其他操作符后使用：group、order、distinct、join、cogroup、cross

set default_parallel 10; --设置一个脚本范围内有效的参数值

daily = load ‘NYSE_daily’ as (exchange, symbol, date, open);

bysymbl = group daily by symbol parallel 10;

Java静态函数调用：

使用Java的integer类将十进制的数值转换为十六进制的值：

define hex InvokeForString(‘java.lang.Integer.toHexString’， ’int’);

divs = load ‘NYSE_daily’ by colume is not null;

inhex = foreach notnull generate symbol, hex((int)colume);

Flatten:

flatten会爆tuple内容打开：

A结构：（a,（b, c））

B = foreach A generate $0, flatten($1);

B返回结果：（a,b,c）

flatten打开bag：

A结构：（{（b,c）,(d,e)}）

B = foreach A generate flatten($0);

B返回结果：（b,c） (d,e)

内嵌foreach：

daily = load ‘NYSE_daily’ as (exchange,symbol);

grpd = group daily by exchange;

uniqcnt = foreach grpg {

sym = daily.symbol;

uniq_sym = distinct sym;

Generate group, count(uniq_sym);

};

指定分片重复：using ‘replicated’

Union：

A = load ‘input1’ as (x:int, y:float);

B = load ‘input2’ as (x:int, y:double);

C = union A,B;

Describe C;

结果：C：{x:int, y:double}

Cross：

daily = load ‘NYSE_daily’ as (exchange:chararray, symbol:chararray);

divs = load ‘NYSE_dividends’ as (exchange:chararray, symbol:cahrarray, date:chararray, dividends:float);

tonsodata = cross daily, divs parallel 10;

如果给定的输入分别具有n和m条记录，那么cross的输出会有n x m 条记录。

通过Perl文件程序highdiv.pl实现代码过滤（stream）：

divs = load ‘NYSE_dividends’ as (exchange, symbol, date, dividends);

highdivs = stream divs through ‘highdiv.pl’ as (exchange, symbol, date, dividends);

Mapreduce:实现mapreduce和pig共用

Crael = load ‘webcrawl’ as (url, pageid);

Normalized = foreach crawl generate normalize(url);

Goodurls = mapreduce ‘blacklistchecker.jar’ store normalized into ‘input’ load ‘output’ as (url, pageid);

我一直都在你身边

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。