zz984230-CSDN博客

转载 MRUnit

引言借年底盛宴品鉴之风,继续抒我Hadoop之情，本篇文章介绍如何对Hadoop的MapReduce进行单元测试。MapReduce的开发周期差不多是这样：编写mapper和reducer、编译、打包、提交作业和结果检索等，这个过程比较繁琐，一旦提交到分布式环境出了问题要定位调试，重复这样的过程实在无趣，因此先对MapReduce做单元测试，消除明显的代码bug尤为必要。 MRUnit简介

2012-05-27 20:36:06 444

书上说的不清晰透彻，下面是在StackOverflow上的一个方案，我觉得很好：(1) Cascading jobsCreate the JobConf object "job1" for the first job and set all the parameters with "input" as inputdirectory and "temp" as output directory. E

2012-05-27 16:40:37 402

转载 mapreduce中的canopy算法

Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。 while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中心离p距离离p距离 } Canopy聚类常作为更强聚类方法的初始步骤。 mahout Canopy聚类实现，采用了两个

2012-05-09 11:01:09 1141

Boost库学习指南.pdf

Boost库是一个经过千锤百炼、可移植、提供源代码的C++库，作为标准库的后备，是C++标准化进程的发动机之一。Boost库由C++标准委员会库工作组成员发起，在C++社区中影响甚大，其成员已近2000人。Boost库为我们带来了最新、最酷、最实用的技术，是不折不扣的“准”标准库。本站主要介绍Boost相关的中文技术文档

2015-01-16

破坏之王——DDoS攻击与防范深度剖析

破坏之王——DDoS攻击与防范深度剖析新出的书

2015-01-20

linux+shell脚本攻略(中文版).pdf

2013-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zz984230的专栏