- 博客(6)
- 资源 (29)
- 收藏
- 关注
原创 MapReduce高级编程之本地聚集与Combinner
本篇主要介绍Combinner,这个MapReduce Shuffle中占有重要地位,他能减少磁盘I/O以及网络Fetch时的数据迁移量,在MapReduce Shuffle中存在着三次排序(Map端两次,reduce端一次),每次排序时便会用上一次Combinner函数,也就是这个可有可无的函数一旦定义会被三次调用~~ 然而Combinner的使用需要注意程序的差错性,而且有些情
2013-05-10 10:25:56 1098
原创 星型模式和雪花模式
星型模式和雪花模式(雪花的层次增多)多维数据--由多个多维数据模式--每个多维数据模式都由一个事实表和一组维表组成1 星型模式--最常见--事实表为中心--多个维表(属性表)分布四周2 雪花模式--由星型模式发展而来--复杂一些--事实表再分层次,有几个小中心 1 星型模式--中心的实体是实体表--星角小实体是各个维度或属性--与中心表通过pk/fk相连
2013-05-08 16:22:35 2666
原创 awk 命令详解
1. 前言有关本手册 :这是一本awk学习指引, 其重点着重于 :l awk 适于解决哪些问题 ?l awk 常见的解题模式为何 ?为使读者快速掌握awk解题的模式及特性, 本手册系由一些较具代表性的范例及其题解所构成; 各范例由浅入深, 彼此间相互连贯,范例中并对所使用的awk语法及指令辅以必要的说明. 有关awk的指令, 函数,...等条列式的说
2013-05-07 13:16:41 5729
原创 linux sort 命令详解
sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!1 sort的工作原理 sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。[rocrocket@rocrocket programming]$ cat seq.txtbananaapplep
2013-05-06 20:35:13 631
转载 Hadoop的MapReduce中多文件输出
Hadoop默认的输出是TextOutputFormat,输出文件名不可定制。hadoop 0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat,可以输出多份文件且可以自定义文件名,但是从hadoop 0.20.x中MultipleOutputFormat所在包的所有类被标记为“已过时”,当前如果再使用MultipleOutputF
2013-05-04 14:02:28 1637
转载 利用采样器实现mapreduce任务输出全排序
利用采样器实现mapreduce任务输出全排序 采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。常见采样器IntervalSampler 以一定的
2013-05-02 15:21:59 5218 2
rpmbuild-demo工程
2015-01-21
Weka源代码详细分析系列
2012-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人