大数据面试-重复元素

找出两个数组中的重复元素

给定两个很大的正整数数组,元素大小均小于1,000,000,找出所有在两个数组中都出现过得数字。

看到这个问题,一个很直接的问题就是使用一个set,将一个数组中的数字全部放入set中。再去遍历另一个数组中的元素,查看是否在set中即可。

但是题目给定的数组都很大,采用set可能会超出内存的限制。那么有无可能缩小内存使用限制呢?是否有必要存放int类型来作为标识呢?

其实可以采用位图法,创建一个长度为1,000,000的bit数组,然后遍历第一个数组,将出现的数字对应的下标修改为1。然后再遍历第二个数组,如果bit数组数字对应的小标的值为1,则代表是重复数字。因为bit占1bit,但是一个int是4bytes = 32bits。参考代码如下:

class BitMap {
    private byte[] bits;

    public BitMap(int size) {
        this.bits = new byte[size];
    }

    public boolean contains(int value) {
        int index = value / 8;
        int offset = value % 8;
        byte mask = (byte) (1 << offset);
        return (bits[index] & mask) != 0;
    }

    public void add(int value) {
        int index = value / 8;
        int offset = value % 8;
        byte mask = (byte) (1 << offset);
        bits[index] |= mask;
    }
}

BitMap bitMap = new BitMap(1000000);
for (int i : arr1){
    bitMap.add(arr1);
}
for (int i : arr2){
    if (bitMap.contains(i))
        System.out.println(i);
}

但如果是单个数组也无法放入内存中的情况呢?这时候就需要分而治之了。我们只需要将数组1和数组2按照相同逻辑进行拆分,确保相同的数字会分到一个分区中。例如数组1中的6分到了第一个分区,那么数组2中的6也应该分到第一个分区。之后我们只需要在对应的分区之间判断有哪些重复的数字,最后再合并结果即可。

其实这里还有一个数据倾斜的坑,我们留到下一篇讲排序的时候再谈。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值