使用布隆过滤器实现java大数据筛选是否存在

最新推荐文章于 2025-05-20 22:23:34 发布

dexi.Chi 攻城狮

最新推荐文章于 2025-05-20 22:23:34 发布

阅读量107

点赞数 2

文章标签： java 笔记经验分享

本文链接：https://blog.csdn.net/weixin_43949154/article/details/148088017

版权

问题
两组大量的数据集合想要互相对比是否一致，而且两组大数据内有多字段。

解决思路
根据多字段生成json，再根据json生成md5，存入布隆过滤器中，每次根据md5查询布隆过滤器内是否存在，不存在直接跳过，存在可能有误判率，需要对比md5是否一致，项目启动初始化加载布隆过滤器，服务器服务器若是重启，内部业务加载已存在的md5存入布隆过滤器中，其他业务代码对比若没有存入，下面是代码

根据需要生成json的几个字段生成json串

public String toJson(String name, BigDecimal amount, Date dateTime, Date effectDate, BigDecimal money) {
	SimpleDateFormat sdf1 = new SimpleDateFormat("yyyy-MM-dd");
	SimpleDateFormat sdf2 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
	String amountToString = null;
	if(amount != null){
		amountToString = String.valueOf(amount);
	}
	return String.format(
			"{\"name\":\"%s\",\"amount\":%s,\"dateTime\":\"%s\",\"money\":%.2f}",
			name,
			amountToString,
			dateTime != null ? sdf2.format(dateTime) : null,
			money != null ? money : null
	);
}

生成md5

import org.apache.commons.codec.digest.DigestUtils;

public class JsonMD5Generator {
    public static String generateMD5(String jsonString) {
        return DigestUtils.md5Hex(jsonString);
    }
}

布隆过滤器，项目启动时加载，里面可以写自己的业务

import com.baomidou.mybatisplus.core.toolkit.CollectionUtils;
import com.google.common.hash.BloomFilter;
import lombok.extern.slf4j.Slf4j;
import org.springframework.boot.CommandLineRunner;
import org.springframework.core.annotation.Order;
import org.springframework.stereotype.Component;

import java.util.ArrayList;
import java.util.List;


@Slf4j
@Component
@Order(1)
public class BloomFilterInitializer implements CommandLineRunner {

    private BloomFilter<String> bloomFilter;

    @Override
    public void run(String... args) throws Exception {
        log.info("布隆过滤器初始加载开始");
        // 预计元素数量
        long expectedInsertions = 1000000L;
        // 误判率
        double fpp = 0.01;
        // 初始化布隆过滤器
        bloomFilter = BloomFilter.create(
                Funnels.stringFunnel(StandardCharsets.UTF_8),
                expectedInsertions,
                fpp
        );

        // 加载数据
        loadData();
        log.info("布隆过滤器初始加载结束");
    }

    private void loadData() {
        // 数据加载逻辑
    }

    public BloomFilter<String> getBloomFilter() {
        return bloomFilter;
    }

}