hadoop streaming map端join_stream中map加上join-CSDN博客

本文链接：https://blog.csdn.net/yang63515074/article/details/80499452

测试数据

    # lixiang_list.txt(小表，可以在map端加载到内存中)
    #立项ID 立项名称
    1800 心愿券测试003
    1801 fw心愿单
    1802 wtest心愿券0524
    1803 HW心愿单01
    1804 心愿券测试006
    1805 心愿券测试007
    1806 心愿券测试008


    # order_list.txt （大表）
    #订单编号            用户手机号  订单金额   创建时间 立项ID  用户ID
    18050411131170468193 18511745550 0.01 1525403591 1768 6502216546
    18050411131741948542 18511745550 0.01 1525403597 1768 6502216546
    18050411132051347006 18511745550 0.01 1525403600 1768 6502216546
    18050411132624157487 18511745550 0.01 1525403606 1768 6502216546


    #连接结果
    立项ID 立项名称 订单编号 订单金额 用户手机号 用户ID 创建时间

思路

提交作业的时候，将小表文件(lixiang_list.txt)文件以缓存的形式上提交到HDFS上，然后在每个map中先将lixiang_list.txt中的数据加载到内存，然后根据接收到的大表的数据，判断是否需要进行连接。

实例代码：


#work.bash


#! /bin/bash



#定义map和reduce的目录

export WORK_PATH=/var/tmp/map_join

#执行stream的jar包地址

stream=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar

#数据输入目录

input=/lcy/map_join/input

#输出结果目录

output=/lcy/map_join/output


#删除mr输出目录

if $HADOOP_HOME/bin/hdfs dfs -test -d $output
then
    $HADOOP_HOME/bin/hdfs dfs -rm -r $output
fi


#执行mapreduce程序

$HADOOP_HOME/bin/hadoop jar $stream \
-D mapreduce.job.reduces=3 \
-D num.key.fields.for.partition=1  \
-D stream.num.map.output.key.fields=1 \
-files $WORK_PATH/lixiang_list.txt \
-input $input/* \
-output $output \
-mapper "python mr.py mapper" \
-file $WORK_PATH/mr.py

mapreduce文件


#! /usr/bin/env python


# coding:utf-8


import sys
import os

dct_lx = {}

def read_input(file,sepr=' '):
    for line in file:
        data = line.split(sepr)
        yield data


def read_lx_data():
    global dct_lx
    with open('lixiang_list.txt','r') as f:
        for line in f:
            line = line.split(' ',1)
            dct_lx[line[0].strip()] = line[1].strip()

def mapper():
    global dct_lx
    filepath = os.environ['map_input_file']
    filename = os.path.split(filepath)[1]
    lines = read_input(sys.stdin)
    for data in lines:
        if "order_list.txt" == filename:
            if len(data) != 6:
                continue
            if data[4] in dct_lx:
                print "%s\t%s\t%s\t%s\t%s\t%s\t%s" % (data[4],dct_lx[data[4]],data[0],data[2],data[1],data[5].strip('\n'),data[3])

if __name__ == '__main__':
    d = {"mapper":mapper}
    if sys.argv[1] in d:
        #加载小表数据
        read_lx_data()
        d[sys.argv[1]]()