2013年05月_wisgood

12月 11月 10月 09月 07月 05月 04月 03月

原创 MapReduce高级编程之本地聚集与Combinner

本篇主要介绍Combinner，这个MapReduce Shuffle中占有重要地位，他能减少磁盘I/O以及网络Fetch时的数据迁移量，在MapReduce Shuffle中存在着三次排序（Map端两次，reduce端一次），每次排序时便会用上一次Combinner函数，也就是这个可有可无的函数一旦定义会被三次调用~~ 然而Combinner的使用需要注意程序的差错性，而且有些情

2013-05-10 10:25:56 1098

原创星型模式和雪花模式

星型模式和雪花模式（雪花的层次增多）多维数据--由多个多维数据模式--每个多维数据模式都由一个事实表和一组维表组成1 星型模式--最常见--事实表为中心--多个维表（属性表）分布四周2 雪花模式--由星型模式发展而来--复杂一些--事实表再分层次，有几个小中心 1 星型模式--中心的实体是实体表--星角小实体是各个维度或属性--与中心表通过pk/fk相连

2013-05-08 16:22:35 2666

原创 awk 命令详解

1. 前言有关本手册 :这是一本awk学习指引, 其重点着重于 :l awk 适于解决哪些问题 ?l awk 常见的解题模式为何 ?为使读者快速掌握awk解题的模式及特性, 本手册系由一些较具代表性的范例及其题解所构成; 各范例由浅入深, 彼此间相互连贯,范例中并对所使用的awk语法及指令辅以必要的说明. 有关awk的指令, 函数,...等条列式的说

2013-05-07 13:16:41 5729

原创 linux sort 命令详解

sort是在Linux里非常常用的一个命令，管排序的，集中精力，五分钟搞定sort，现在开始！1 sort的工作原理 sort将文件的每一行作为一个单位，相互比较，比较原则是从首字符向后，依次按ASCII码值进行比较，最后将他们按升序输出。[rocrocket@rocrocket programming]$ cat seq.txtbananaapplep

2013-05-06 20:35:13 631

Hadoop默认的输出是TextOutputFormat，输出文件名不可定制。hadoop 0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat，可以输出多份文件且可以自定义文件名，但是从hadoop 0.20.x中MultipleOutputFormat所在包的所有类被标记为“已过时”，当前如果再使用MultipleOutputF

2013-05-04 14:02:28 1637

转载利用采样器实现mapreduce任务输出全排序

利用采样器实现mapreduce任务输出全排序采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用，以满足不同的需求。另外，采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。常见采样器IntervalSampler 以一定的

2013-05-02 15:21:59 5218 2