Hadoop上的python框架实现map-reduce

map-reduce框架里面由一个mapper和reducer组成
以键值对的方式处理数据
以对文本中的单词计数为例
mapper所做的事情就是简单的拆分每一行的单词,并且以单词 1
这样的格式输出到stdout
然后经过一个shuffle 和 sort,使mapper的输出根据键值排序,然后分发给reducer,reducer做的事情就是将键值相同的输出后面的value相加,然后输出到stdout
下面我们用python实现一下这个wordcount的小应用
首先是mapper.py

#!/usr/bin/env python

import sys

if __name__=="__main__":
    for line in sys.stdin:
        for word in line.split():
            sys.stdout.write("{}\t1\n".format(word))

然后使reducer.py

#!/usr/bin/env python

import sys

if __name__=="__main__":
    curkey = None
    total = 0
    for line in sys.stdin:
        key, val = line.split("\t")
        val = int(val)
       
        if key == curkey:
            total += val
        else:
            if curkey is not None:
                sys.stdout.write("{}\t{}\n".format(curkey, total))
       
            curkey = key
            total = val
    sys.stdout.write("{}\t{}\n".format(curkey, total))
       

注意行首的#!/usr/bin/env python是必须的,它告诉Hadoop streaming使用python来解析。
然后我们新建一个text.txt文件来测试一下:

$ vim text.txt

内容如下:

hello hello you me word word
test test test
hello hello

然后我们使用管道的方法来在本地测试一下这个代码是否正确

# 先增加两个py文件的执行权限
$ chmod 777 mapper.py
$ chmod 777 reducer.py
$ cat text.txt | ./mapper.py | sort | ./reducer.py

此时可以看到输出是:

hello	4
me		1
test    3
word    2
you     1

本地版本没有什么问题之后,我们把这个文件放到Hadoop上去跑,也是用命令行的形式
首先把我们的text.txt放到hdfs上面去

$ hadoop fs -copyFromLocal text.txt text.txt
$ hadoop fs -ls /user/hadoop

看到文件上传上去了,然后我们使用命令将程序部署上去并运行:

$ hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar \
-input text.txt \
-output wordcount \
-mapper mapper.py \
-reducer reducer.py \
-file mapper.py \
-file reducer.py

然后会出现一堆信息,等他运行完
查看下输出文件,并把它拿下来

$ hadoop fs -ls /user/hadoop
$ hadoop fs -get wordcount wordcount-from-remote

拿下来是个目录,里面会有类似part-00000之类的文件就是输出啦~

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值