重写RecordReader和InputFormat实现单个文件不分片，整个分片作为一条记录处理。（倒排索引）

最新推荐文章于 2021-01-01 19:55:59 发布

张小琦

最新推荐文章于 2021-01-01 19:55:59 发布

阅读量2k

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/zq602316498/article/details/25626311

版权

这篇博客介绍了如何在MapReduce中重写RecordReader和InputFormat，以确保整个文件作为一个单独的记录进行处理，特别关注了在BytesWritable转换过程中避免空格影响key值分组的问题。

摘要由CSDN通过智能技术生成

比较简单，直接上代码：

这是MapReduce功能代码：

package org.edu.bupt.xiaoye.hadooptest;

import java.io.IOException;
import java.net.URI;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.Set;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyInverseIndex {
	public static final String INPUT_PATH = "hdfs://10.103.240.160:9000/usr/hadoop/MyInverseIndex_in";
	public static final String OUTPUT_PATH = "hdfs://10.103.240.160:9000/usr/hadoop/MyInverseIndex_out";

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
		final Path outPath = new Path(OUTPUT_PATH);
		if (fileSystem.exists(outPath)) {
			fileSystem.delete(outPath, true);
		}
		conf.set("hadoop.job.user","hadoop");
		conf.set("mapred.job.track