pig
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
关于pig中文输入的问题
新建了一个文件test.txt,随便造了几条测试数据(tab键分隔,是pig默认的分隔方式,若要以其他分隔,load的时候load 'test.txt' using PigStorage(',') as .... 就可以以逗号分隔): xiaojun 28 上海 yangna 24 兰州 在pig grant shell中输入中文是没法解析的,会报错,比如在shel原创 2014-12-10 15:31:41 · 793 阅读 · 0 评论 -
Apache Pig的一些基础概念及用法总结
转载必须注明出处:http://www.codelast.com/ 转载地址 本文可以让刚接触pig的人对一些基础概念有个初步的了解。 本文大概是互联网上第一篇公开发表的且涵盖大量实际例子的Apache Pig中文教程(由Google搜索可知),文中的大量实例都是作者Darran Zhang(website: codelast.com)在工作、学习中总结的经验或解决的问题转载 2014-12-11 10:53:12 · 914 阅读 · 0 评论 -
pig自定义FilterFunc实现数据流的过滤
假设test.txt文件中有如下数据: xiaojun 28 shanghai yangna 24 lanzhou yangna 24 shanghai xiaojun 28 上海 想实现过滤其中为上海的数据。我们可以写 : a = load 'test.txt' as (name:chararray,age:int,city:chara原创 2014-12-11 19:16:27 · 2196 阅读 · 0 评论 -
pig自定义load udf
假设文件test4.txt有这么两行数据: 1980080113312121212018 1985080113313131313023 规则是前8位为年月日,中间11位为手机号码,后3位表示的是年龄。 我们可以自定义一个加载udf来加载这个文件 package com.besttone.pig.udf.load; import java.io.IOException; im原创 2014-12-12 14:20:26 · 1789 阅读 · 0 评论 -
pig 通过参数替换实现动态运行脚本
一般情况下,都会有定期运行的pig脚本,比如每天运行一次的脚本,这类脚本往往在内部都要用到当天的日期作为参数,pig支持参数替换,参数由前缀$字符来标示,例如我们需要load每天的数据进行统计分析,每天的数据在hdfs上是按日期进行进行命名的,我们可以新建一个test.pig脚本: a = load '$input' as (.....); store a into '$output'; 然原创 2014-12-15 10:17:23 · 2281 阅读 · 0 评论