Hadoop MapReduce多表关联查询-案例

最新推荐文章于 2023-02-25 14:14:04 发布

Little Rain～

最新推荐文章于 2023-02-25 14:14:04 发布

阅读量1.9k

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/zy_remarkable/article/details/81193789

版权

本文通过一个案例展示了如何使用Hadoop MapReduce进行多表关联查询。原始数据包括factory.txt（工厂库）和address.txt（地址库），目标是输出工厂名及其所在地点。Mapper阶段将工厂名和地址ID作为键值对输出，Reducer阶段进行关联整合，最终得到工厂名和对应的城市信息。

摘要由CSDN通过智能技术生成

案例：将工厂名和所在地点输出
原始数据为factory.txt工厂库和address.txt地址库
   【factory.txt】如下：
       factoryname   addressId
       Beijing Red Star   1
       Shenzhen Thunder   3
       Guangzhou Honda   2
       Beijing Rising   1
       Guangzhou Development Bank   2
       Tencent   3
       Back of Beijing   1

【address.txt】如下：
       addressID   addressname
       1   Beijing
       2   Guangzhou
       3   Shenzhen
       4   Xian

思路分析：
    a.关联键ID
    Mapper:<k2,v2>--> <1,"1,Beijing Red Star","1,Beijing Rising","1,Back of Beijing">
                        <1,"2,Beijing">
    Reducer:<k2,v2>--> <1,["1,Beijing Red Star","1,Beijing Rising","1,Back of Beijing",1,"2,Beijing"]>

代码如下ÿ