- 博客(3)
- 资源 (3)
- 收藏
- 关注
转载 MRUnit
引言 借年底盛宴品鉴之风,继续抒我Hadoop之情,本篇文章介绍如何对Hadoop的MapReduce进行单元测试。MapReduce的开发周期差不多是这样:编写mapper和reducer、编译、打包、提交作业和结果检索等,这个过程比较繁琐,一旦提交到分布式环境出了问题要定位调试,重复这样的过程实在无趣,因此先对MapReduce做单元测试,消除明显的代码bug尤为必要。 MRUnit简介
2012-05-27 20:36:06 373 1
转载 Mapper与Reducer的链接
书上说的不清晰透彻,下面是在StackOverflow上的一个方案,我觉得很好:(1) Cascading jobsCreate the JobConf object "job1" for the first job and set all the parameters with "input" as inputdirectory and "temp" as output directory. E
2012-05-27 16:40:37 347
转载 mapreduce中的canopy算法
Canopy聚类是一种简单、快速、但不太准确的聚类方法。 该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。 while(没有标记的数据点){ 选择一个没有强标记的数据点p 把p看作一个新Canopy c的中心 离p距离 离p距离 } Canopy聚类常作为更强聚类方法的初始步骤。 mahout Canopy聚类实现 ,采用了两个
2012-05-09 11:01:09 1061
Boost库学习指南.pdf
2015-01-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人