mapreduce
文章平均质量分 68
郑斯道
这个作者很懒,什么都没留下…
展开
-
MapReduce 实现 倒序索引
倒序索引 简介“倒排索引”是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。关于倒序索引更加详细的介绍MapReduce实现倒序索引Hadoop 将数据传给 map原创 2017-08-02 17:08:34 · 1454 阅读 · 0 评论 -
Hadoop学习笔记:MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系
一、基本概念 在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(HDFS)主要负责各个节点的数据存储,并实现了高吞吐率的数据读写。 在分布式存储和分布式计算方面,Hadoop都是用主/从(Master/Slave)架构。在一个配置完整的集群上,想让Hadoop原创 2017-07-20 11:08:49 · 1331 阅读 · 0 评论 -
MapReduce 实现 InnerJoin 操作: 在Reduce端实现Join
InnerJoin表1 DEP.txt: (去除第一行列名) ID 地名 1 北京2 天津3 河北4 山西5 内蒙古6 辽宁7 吉林8 黑龙江表2 EMP.txt : (去除第一行列名)ID 年份 数量1 2010 1962原创 2017-08-03 17:59:02 · 1688 阅读 · 1 评论