自定义实现Hadoop Key-Value

自定义实现Value

如果需要自定义一个一个Value类型,那么需要实现Hadoop预定义接口org.apache.hadoop.io.WritableWritable包含两个重要的方法:readFieldswrite,主要用于数据的序列化和反序列化。对于Writable的子类的成员变量必须是Java的基本类型或者是其他实现了Writable接口的类型。如果是Java的基本类型则可以使用DataInput的相应方法进行成员变量的读写,例如:

int  responseSize = in.readInt();

String  userIP = in.readUTF();

如果是实现了Writable接口的类型可以使用该类型的writereadFields方法进行数据的读写,例如:

Text name=new Text(); 

name.readFields(in);

注意事项:

(1)如果过实现接口Writable的自定义类型包含构造函数,一定需要书写参数为空的自定义函数(2)如果Hadoop应用采用了TextOutputFormat作为输出格式并且采用了自定义Key或者Value,因为TextOutputFormat采用valuetoString方法进行最后结果的输出,因此在自定义Writable的时候需要根据需要实现一个有意义的toString方法(3)当Hadoop进行输入处理的时候,Hadoop一般会重复使用keyvalue对象,主要注意上一次读取的数据会不会对本次处理产生影响。

自定义实现Key:

作为Hadoop Key,需要具备比较功能,以便hadoop进行分区和排序。因此,Key需要实现两个接口,一个是Writable接口;一个是WritableComparable接口。WritableComparable增加了一个compareTo方法,用来进行对象的比较。

注意事项:

一般情况下采用compareTo方法就能满足应用需求,但是该方法需要将二进制数据反序列化成对象,因此性能不是特别高。为此,Hadoop一般为每一种Writable类型提供一种RawComparator,用来进行二进制数据的比较。如果需要使用RawComparator,则首先需要继承WritableComparator并自定义实现其中的compare方法;然后,通过     WritableComparator.define(IntWritable.class, new Comparator())方法完成该类对应比较程序的注册。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
hadoop-mapreduce-client-core是Hadoop分布式计算框架中的核心模块之一。它主要包含了Hadoop MapReduce的核心功能和API接口,是实现MapReduce编程模型的必备组件。 Hadoop MapReduce是一种用于大规模数据处理的编程模型,其核心思想是将大规模数据集分解成多个较小的数据块,分别在集群中的不同机器上进行处理,最后将结果整合。hadoop-mapreduce-client-core模块提供了与MapReduce相关的类和方法,方便开发者实现自定义的Map和Reduce任务。 具体来说,hadoop-mapreduce-client-core模块包含了以下重要组件和功能: 1. Job:Job表示一个MapReduce任务的定义和描述,包括输入路径、输出路径、Mapper和Reducer等。 2. Mapper:Mapper是MapReduce任务中的映射函数,它负责将输入数据转换成<key, value>键值对的形式。 3. Reducer:Reducer是MapReduce任务中的归约函数,它按照相同的key将所有Mapper输出的value进行聚合处理。 4. InputFormat:InputFormat负责将输入数据切分成多个InputSplit,每个InputSplit由一个Mapper负责处理。 5. OutputFormat:OutputFormat负责将Reducer的输出结果写入指定的输出路径中。 使用hadoop-mapreduce-client-core模块,开发者可以基于Hadoop分布式计算框架快速开发并行处理大规模数据的应用程序。通过编写自定义的Mapper和Reducer,可以实现各种类型的分布式计算,如数据清洗、聚合分析、机器学习等。 总之,hadoop-mapreduce-client-core是Hadoop分布式计算框架中的核心模块,提供了实现MapReduce编程模型所需的基本功能和API接口。使用该模块,开发者可以利用Hadoop的分布式计算能力,高效地处理和分析大规模数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值