山东大学软件工程应用与实践——Pig代码分析(二)

2021SC@SDUSC

目录

概述

ColumnChainInfo类

insert方法

insertInReduce方法


概述

本次分析pig作为hadoop的轻量级脚本语言操作hadoop的executionengine包下的mapReduceLayer类的代码

ColumnChainInfo类

insert方法

为项目星标或项目尾部插入新的列信息

public void insert(int startCol, byte type)
    {
        ColumnInfo newColumnInfo = new ColumnInfo(startCol, type);
        columnInfos.add(newColumnInfo);
    }

insertInReduce方法

此方法被用来将项目插入reduce过程中

public void insertInReduce(POProject project)
    {
        if (size()==0)
        {
            int col;
            if(project.isProjectToEnd() || project.getColumns().size() != 1){      
                col = -1;
                return;
            }else{
                col = project.getColumns().get(0) - 1;
            }
            List<Integer> newColumns = new ArrayList<Integer>();
            newColumns.add(col);
            ColumnInfo newColumnInfo = new ColumnInfo(newColumns, project.getResultType());
            columnInfos.add(newColumnInfo);
        }
        else if (project.isProjectToEnd()){
            insert(project.getStartCol(), project.getResultType());
        }
        else {
            insert(project.getColumns(), project.getResultType());
        }
    }

在 reduce 过程中,input#1 表示第一个输入,将使用0 替代1,以便我们可以匹配从 POLocalRearrange 收集的排序信息

其中 

if(project.isProjectToEnd() || project.getColumns().size() != 1){      
                col = -1;
                return;
            }

我们希望的是第一个项目变成整个集群包的一部分,因此出现在这个地方是不合理 的。于是我们将这一列设置为-1,以便它在二次排序优化中不会被用到。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值