阿里云MapReduce多路输入输出例子

最新推荐文章于 2023-09-20 21:51:55 发布

zx8167107

最新推荐文章于 2023-09-20 21:51:55 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/zx8167107/article/details/79045558

版权

本文不涉及mapreduce的原理和框架比较，而是聚焦于阿里云MapReduce实现多路输入输出的应用。在大数据场景下，除单路输入计算外，多路输入输出在如表JOIN等操作中有广泛应用。文中通过实际需求，演示了如何在阿里云MR框架下，处理ODPS表格的多路输入和输出。

摘要由CSDN通过智能技术生成

mapreduce的原理、框架以及hadoop MR与阿里云MR的异同这里不做讨论，这里主要介绍的是如何运用阿里云的mapreduce框架来实现多路输入输出。

大数据场景下的数据挖掘和数据计算中一般用mapreduce做单路输入的计算，但是多路输入输出在现实中也是有比较多的使用场景，比如两张表的join操作等等，最近我就遇到一个需要多路输入的需求。借着这个需求来解析一下这种mapreduce应用场景。

阿里云的mr输入输出都是odps上的表格，多路输入输出的载体也都是表格。话不多说，直接上代码。

package xxx.xxx.xxx

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.ArrayList;
import java.util.Iterator;
import com.aliyun.odps.data.Record;
import com.aliyun.odps.data.TableInfo;
import com.aliyun.odps.mapred.JobClient;
import com.aliyun.odps.mapred.MapperBase;
import com.aliyun.odps.mapred.ReducerBase;
import com.aliyun.odps.mapred.conf.JobConf;
import com.aliyun.odps.mapred.utils.InputUtils;
import com.aliyun.odps.mapred.utils.OutputUtils;
import com.aliyun.odps.mapred.utils.SchemaUtils;

/**
* Created by on 2018/1/10.
* Package:
* Project: shmx_2
* sql需要将原表分为两部分1：还未的记录 2：已经的记录
*/

public class ExceptionalHotel {

public static class Mapper extends MapperBase {

private Record KEY;
private Record VALUE;
//区分两张输入表
private int tag;

@Override
public void setup(TaskContext context) throws IOException {
KEY = context.createMapOutputKeyRecord();
VALUE = context.createMapOutputValueRecord();
tag = context.getInputTableInfo().getLabel().equals("left") ? 0 : 1;
}