希望 MapReduce 直接支持多种输入/输出

希望在 MapReduce 加入这样3个功能:

 

1.      可以对不同的输入文件指定不同的RecordReader/Mapper

我对这个问题的解决办法是:使用不同的正则表达式来自动识别,很不优美,而且有局限

 

2.      一个 Map 可以输出多个不同的管道——目前只有一个

我对这个问题的解决办法是:给记录打标记,使用标记来识别管道编号

 

3.         每个Reduce可以输出多个不同的文件

我对这个问题的解决办法也是给记录打标记

 

这几个需求是在做equal join时发现的,使用这种模式,equal join的速度非常快。并且,还可用于group 时计算多个字段的distinct count

 

很希望MapReduce可以提供直接的支持。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值