MapReduce
文章平均质量分 80
xhyzfl
这个作者很懒,什么都没留下…
展开
-
Hadoop下进行反向索引(Inverted Index)操作
今天上网无意中看到了这篇文章,里面的效果不错,但是代码自己还没有验证过。想先留下来。这篇为转载,等自己调试代码通过后再发表个原创版的! 原版地址:http://blog.csdn.net/xw13106209/article/details/6123407 参考资料:转载 2011-09-08 15:56:48 · 1596 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce 第三章(2)——PAIRS AND STRIPES
3.2 PAIRS AND STRIPES 在MapReduce程序中同步的一个普遍做法是构建复杂的键和值,通过这种方式使得执行框架可以将需要计算的数据自然的放到一起。我们在之前的章节中涉及到这个技术,即把部分总数和计数“打包”成一个复合值(例如pair),依次从mapper传到combiner再传到reducer。以之前的出版物为基础【54,94】,这节介绍两个常见的设计模式,我们称为p翻译 2011-10-23 21:15:55 · 2187 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce 第三章(1)——local aggregation
3.1本地聚集(local aggregation) 在数据密集的分布式处理环境中,从产生它们的进程到最后消费它们的进程,中间结果的交互是同步中重要的一个方面。在一个集群环境中,除了令人尴尬的并行问题,其它都必须通过网络传输数据。此外,在Hadoop,中间结果是先写到本地磁盘然后再用网络发送出去。因为网络和磁盘因素相对其它因素更加容易成为评价,所以减少中间数据的传输即提高了算法的效率。在M翻译 2011-10-23 17:18:21 · 1740 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(3)——COMPUTING RELATIVE FREQUENCIES
3.3COMPUTING RELATIVE FREQUENCIES 计算相对频率 让我们在之前讲到的pairs和stripes算法的基础上继续在大型数据集上构建重现矩阵M。回忆在这个大的n×n矩阵模型,当n=|V|(词典大小),元素mij包含单词wi与wj在具体语境下共同出现的次数。无约束的计数的缺点是它没有考虑到实际上有些词会比其它词更加频繁地出现。单词wi可能比wj出现的次数多因为其中一个可翻译 2011-10-26 19:57:31 · 1274 阅读 · 0 评论 -
Data-Intensive Text Processing with MapReduce第三章(4)-SECONDARY SORTING
3.4 SECONDARY SORTING MapReduce在清洗(shuffle)和排序(sort)阶段用键来为中间键值对排序,如果reducer中的计算依赖于排序顺序的话就非常简单(即之前章节说到的顺序反转模式)。然而,如果除了用键排序之外,我们也需要用值来排序呢?Google的MapReduce实现提供了内置的二次排序的机制,它可以保证值是以排序顺序到达的。Hadoop,不幸的是没有内置翻译 2011-10-29 20:21:00 · 970 阅读 · 0 评论