希望在 MapReduce 加入这样3个功能:
1. 可以对不同的输入文件指定不同的RecordReader/Mapper
我对这个问题的解决办法是:使用不同的正则表达式来自动识别,很不优美,而且有局限
2. 一个 Map 可以输出多个不同的管道——目前只有一个
我对这个问题的解决办法是:给记录打标记,使用标记来识别管道编号
3. 每个Reduce可以输出多个不同的文件
我对这个问题的解决办法也是给记录打标记
这几个需求是在做equal join时发现的,使用这种模式,equal join的速度非常快。并且,还可用于group 时计算多个字段的distinct count。
很希望MapReduce可以提供直接的支持。