python简单实现hadoop map reduce统计功能

#!/usr/bin/env python

def hadoopMap(fd):
    lines={}
    for line in fd:
        if lines.has_key(line):
            lines[line]+=1
        else:
            lines[line]=1

    return lines

def hadoopReduce(result,mapResult):
    for key in mapResult:
        if result.has_key(key):
            result[key]+=mapResult[key]
        else:
            result[key]=mapResult[key]
    print result
    return result
fd=(open("test.0",'r'),open("test.1"))
mapData=map(hadoopMap,fd)
for fds in fd:
    fds.close()
print mapData
reduceResult=reduce(hadoopReduce,mapData,{})
print reduceResult

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值