Hadoop上的python框架实现map-reduce

最新推荐文章于 2024-03-27 15:00:00 发布

迷迷迷迷路的鹿鹿

最新推荐文章于 2024-03-27 15:00:00 发布

阅读量264

点赞数 1

分类专栏：实战区文章标签： hadoop python mapreduce

本文链接：https://blog.csdn.net/yao09605/article/details/103944311

版权

实战区专栏收录该内容

53 篇文章 5 订阅

订阅专栏

map-reduce框架里面由一个mapper和reducer组成
以键值对的方式处理数据
以对文本中的单词计数为例
mapper所做的事情就是简单的拆分每一行的单词，并且以单词 1
这样的格式输出到stdout
然后经过一个shuffle 和 sort，使mapper的输出根据键值排序，然后分发给reducer，reducer做的事情就是将键值相同的输出后面的value相加，然后输出到stdout
下面我们用python实现一下这个wordcount的小应用
首先是mapper.py

#!/usr/bin/env python

import sys

if __name__=="__main__":
    for line in sys.stdin:
        for word in line.split():
            sys.stdout.write("{}\t1\n".format(word))

然后使reducer.py

#!/usr/bin/env python

import sys

if __name__=="__main__":
    curkey = None
    total = 0
    for line in sys.stdin:
        key, val = line.split("\t")
        val = int(val)
       
        if key == curkey:
            total += val
        else:
            if curkey is not None:
                sys.stdout.write("{}\t{}\n".format(curkey, total))
       
            curkey = key
            total = val
    sys.stdout.write("{}\t{}\n".format(curkey, total))

注意行首的#!/usr/bin/env python是必须的，它告诉Hadoop streaming使用python来解析。
然后我们新建一个text.txt文件来测试一下：

$ vim text.txt

内容如下：

hello hello you me word word
test test test
hello hello

然后我们使用管道的方法来在本地测试一下这个代码是否正确

# 先增加两个py文件的执行权限
$ chmod 777 mapper.py
$ chmod 777 reducer.py
$ cat text.txt | ./mapper.py | sort | ./reducer.py

此时可以看到输出是：

hello	4
me		1
test    3
word    2
you     1

本地版本没有什么问题之后，我们把这个文件放到Hadoop上去跑，也是用命令行的形式
首先把我们的text.txt放到hdfs上面去

$ hadoop fs -copyFromLocal text.txt text.txt
$ hadoop fs -ls /user/hadoop

看到文件上传上去了，然后我们使用命令将程序部署上去并运行：

$ hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar \
-input text.txt \
-output wordcount \
-mapper mapper.py \
-reducer reducer.py \
-file mapper.py \
-file reducer.py

然后会出现一堆信息，等他运行完
查看下输出文件，并把它拿下来

$ hadoop fs -ls /user/hadoop
$ hadoop fs -get wordcount wordcount-from-remote

拿下来是个目录，里面会有类似part-00000之类的文件就是输出啦～

迷迷迷迷路的鹿鹿

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hadoop上的python框架实现map-reduce

map-reduce框架里面由一个mapper和reducer组成以键值对的方式处理数据以对文本中的单词计数为例mapper所做的事情就是简单的拆分每一行的单词，并且以单词 1这样的格式输出到stdout然后经过一个shuffle 和 sort，使mapper的输出根据键值排序，然后分发给reducer，reducer做的事情就是将键值相同的输出后面的value相加，然后输出到stdou...
复制链接

扫一扫