MapReduce是什么
MapReduce是Hadoop(这种大数据处理生态环境)的编程模型。
既然称为模型,则意味着它有固定的形式。
MapReduce编程模型,就是Hadoop生态环境进行数据分析处理的固定的编程形式。
这种固定的编程形式描述如下:
MapReduce任务过程被分为两个阶段:map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出,并由程序员选择他们的类型。
也就是说,程序员只需要定义两个函数:map函数和reduce函数就好了,其他的计算过程交给hadoop就好了。
通过以上描述,我们可以看出:
MapReduce所能处理的场景实际是非常具体的,非常有限的,只是“数据的统计分析”场景。
输入数据准备
天气预报官方网址:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/
但是,发现这个官方网址的文件格式和《Hadoop权威指南》所用的格式不一致,不知道是时间久了,官网的格式变了,还是作者对原始格式进行过处理,亦或这个网址根本不对&#