![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
mapreduce
文章平均质量分 78
江南浙里
我是来自丛林的一头小野猪,习惯了独来独往
展开
-
专利数据集的MR程序
利用mapreduce进行专利数据集数据计算原创 2015-02-04 16:40:36 · 821 阅读 · 0 评论 -
专利数据集的MR程序-MultipleOutputs
利用mr程序,根据国家将专利元数据分割到多个目录,同时,将输入数据的不同列提取为不同文件的程序原创 2015-02-06 11:43:07 · 727 阅读 · 0 评论 -
mapreduce程序的压缩实现
mapreduce程序的压缩实现原创 2015-04-22 18:20:59 · 487 阅读 · 0 评论 -
hadoop倒排索引
1.前言 学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒拍索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果转载 2015-04-06 16:12:50 · 675 阅读 · 0 评论 -
MapReduce简介
1.MapReduce框架简介 要设计倒排索引这个算法,那么我们首先得知道MapReduce框架中的InputFormat类,Mapper类,Partition过程,sort过程,Combine类,Reduce类的设计原理。1.1InputFormat类 InputFormat类的作用是什么呢?其实就是把输入的数据(就是你上传到hdfs的文件)切转载 2015-04-06 16:17:58 · 408 阅读 · 0 评论 -
如何在开发环境中创建mapreduce程序
如何在开发环境中创建mapreduce程序原创 2015-04-21 09:37:17 · 619 阅读 · 0 评论