hadoop迭代器原理(通俗易懂)

这篇博客探讨了Hadoop在reduce阶段如何合并表输出,重点在于理解Hadoop迭代器与Java迭代器的不同。在Java中,遍历迭代器时,同一个引用对象的值会被改变,而在Hadoop中,为了保存多个对象,需要在每次遍历时创建新的对象实例。博客通过实例解释了这一原理,强调了在处理Hadoop迭代器时需要注意的内存管理问题。
摘要由CSDN通过智能技术生成

hadoop的迭代器与Java的不同

用一个题目来解释

在reduce阶段将两张表合并输出,思路是创建一个集合,遍历每个reduce方法中的value,将对象放到集合中去

Hadoop与Java的迭代器不同,当使用for去遍历迭代器中的元素的时候,给到的这个value一直都是一个value,只是每次给的值不一样。即如果我们创建一个临时对象tmpOrderBean,会给这个对象开辟一个空间,value=new tmpOrderBean,这个是第一次运行时的等价代码,而第二次运行的时候只是改变了value的值,没有重新开辟内存,所以需要每次遍历的时候都开辟一个新的空间地址这样就可以把多个对象放进去了。

原理也可以这样解释:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值