Mapreduce端join算法实现(订单和产品文件数据关联操作)

本文介绍如何使用MapReduce处理大数据场景下,订单表t_order和产品信息表t_product的文件数据关联。通过设置关联条件为Map输出的key,将匹配的数据发送到同一Reduce任务,再在Reduce阶段完成数据串联。具体实现包括自定义bean,订单数据存储于HDFS的order目录,产品数据存储于product目录。
摘要由CSDN通过智能技术生成

1、需求:

订单数据表t_order:

关系数据库表-

id

date

pid

amount

1001

20150710

P0001

2

1002

20150710

P0001

3

1002

20150710

P0002

3

抽象成文件数据:

1001,20150710,P0001,2
1002,20150710,P0001,3
1003,20150710,P0002,3
1002,20150710,P0003,3
1002,20150710,P0002,4

。。。。。。
商品信息表t_product:

id

pname

category_id

price

P0001

小米5

1000

2

P0002

锤子T1

1000

3

抽象成文件数据:
p0001,小米,1000,2
p0002,魅族,1001,3
p0003,oppo,1002,3

 。。。。。。

假如数据量巨大,两表的数据是以文件的形式存储在HDFS中,需要用mapreduce程序来实现一下SQL查询运算:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值