map-reduce框架里面由一个mapper和reducer组成
以键值对的方式处理数据
以对文本中的单词计数为例
mapper所做的事情就是简单的拆分每一行的单词,并且以单词 1
这样的格式输出到stdout
然后经过一个shuffle 和 sort,使mapper的输出根据键值排序,然后分发给reducer,reducer做的事情就是将键值相同的输出后面的value相加,然后输出到stdout
下面我们用python实现一下这个wordcount的小应用
首先是mapper.py
#!/usr/bin/env python
import sys
if __name__=="__main__":
for line in sys.stdin:
for word in line.split():
sys.stdout.write("{}\t1\n".format(word))
然后使reducer.py
#!/usr/bin/env python
import sys
if __name__=="__main__":
curkey = None
total = 0
for line in sys.stdin:
key, val = line.split("\t")
val = int(val)
if key == curkey:
total += val
else:
if curkey is not None:
sys.stdout.write("{}\t{}\n".format(curkey, total))
curkey = key
total = val
sys.stdout.write("{}\t{}\n".format(curkey, total))
注意行首的#!/usr/bin/env python
是必须的,它告诉Hadoop streaming使用python来解析。
然后我们新建一个text.txt文件来测试一下:
$ vim text.txt
内容如下:
hello hello you me word word
test test test
hello hello
然后我们使用管道的方法来在本地测试一下这个代码是否正确
# 先增加两个py文件的执行权限
$ chmod 777 mapper.py
$ chmod 777 reducer.py
$ cat text.txt | ./mapper.py | sort | ./reducer.py
此时可以看到输出是:
hello 4
me 1
test 3
word 2
you 1
本地版本没有什么问题之后,我们把这个文件放到Hadoop上去跑,也是用命令行的形式
首先把我们的text.txt
放到hdfs上面去
$ hadoop fs -copyFromLocal text.txt text.txt
$ hadoop fs -ls /user/hadoop
看到文件上传上去了,然后我们使用命令将程序部署上去并运行:
$ hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar \
-input text.txt \
-output wordcount \
-mapper mapper.py \
-reducer reducer.py \
-file mapper.py \
-file reducer.py
然后会出现一堆信息,等他运行完
查看下输出文件,并把它拿下来
$ hadoop fs -ls /user/hadoop
$ hadoop fs -get wordcount wordcount-from-remote
拿下来是个目录,里面会有类似part-00000之类的文件就是输出啦~