数据集文件
链接:https://pan.baidu.com/s/1G-GZRz285EUPKHKOWX2gpQ 提取码:1wyx
1.项目说明
一本英文书籍包含成千上万个单词或者短语,现在我们需要在大量的单词中,找出相同字母组成的所有单词。由于这些单词相互之间没有依赖关系,为了加快数据处理的速度,可以借助Hadoop中MapReduce编程模型的特点,快速的编写出并行计算程序,从而实现大量单词的快速分析。所以项目要求通过编写MapReduce代码实现该功能。
2.项目示例数据
3.项目开发思路及重点分析
基于以上需求,我们最终是需要找出相同字母组成的不同单词,而且MapReduce处理key-value对形式的数据,所以说在编写MapReduce之前必须先明确map和reduce输入输出的key-value对,从后往前推,reduce需要处理的是把输入的相同key的value聚合起来,value很好确定,就是单词本身,那么怎么会产生相同的key呢?其实也很简单。单词是由字母组成的ÿ