【案例实战】爬虫URL去重实战-SpringBoot2.x+Guava布隆过滤器

该文介绍了如何使用SpringBoot结合Guava的布隆过滤器来解决爬虫URL去重问题。首先,添加了必要的Maven依赖,然后通过测试方法生成500万个随机URL并保存到文件。接着,利用Guava创建布隆过滤器,并设置预期存储量和误判率。文章通过@Bean注解将文件内容注入到布隆过滤器中,最后在Controller中测试过滤器功能,避免内存溢出问题。
摘要由CSDN通过智能技术生成
1.爬虫URL去重实战-SpringBoot2.x+Guava布隆过滤器
  • 创建项目

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9qKNqpNz-1677911155237)(images/1.jpg)]

  • 加入maven依赖
	<dependency>
      <groupId>org.springframework.boot</groupId>
      <artifactId>spring-boot-starter-web</artifactId>
    </dependency>

    <dependency>
      <groupId>org.springframework.boot</groupId>
      <artifactId>spring-boot-starter-test</artifactId>
      <scope>test</scope>
    </dependency>


    <dependency>
      <groupId>org.apache.commons</groupId>
      <artifactId>commons-lang3</artifactId>
      <version>3.12.0</version>
    </dependency>

    <dependency>
      <groupId>com.google.guava</groupId>
      <artifactId>guava</artifactId>
      <version>31.1-jre</version>
    </dependency>
  • 数据准备 (随机生成500万URL)
	@Test
    public void testGeneUrl() {
        try{
            //注意这块写上 自己电脑的 路径
            File file = new File("D:\\ideaworkspace\\bloomfilter-test\\src\\main\\resources");
            if (!file.exists()) {
                file.createNewFile();
            }
            FileOutputStream fos = new FileOutputStream(file, true);
            OutputStreamWriter osw = new OutputStreamWriter(fos);
            BufferedWriter bw = new BufferedWriter(osw);
            StringBuilder builder = new StringBuilder();
            for (int i = 0; i < 5000000; i++) {
                String name = RandomStringUtils.randomAlphabetic(5);
                String fileName = "https://www." + name + ".com" + i + "\n";
                builder.append(fileName);
            }
            bw.write(String.valueOf(builder));
            bw.newLine();
            bw.flush();
            bw.close();
            osw.close();
            fos.close();
        } catch (FileNotFoundException e1) {
            e1.printStackTrace();
        } catch (IOException e2) {
            e2.printStackTrace();
        }
    }

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6ktJIpPq-1677911155238)(images/2.jpg)]

  • Guava包布隆过滤器介绍
//参数一: 指定布隆过滤器中存的是什么类型的数据,有 IntegerFunnel,LongFunnel,StringCharsetFunnel
//参数二: 预期需要存储的数据量
//参数三: 误判率,默认是 0.03
BloomFilter.create(Funnels.stringFunnel(Charset.forName("UTF-8")), 5000000, 0.01);
  • @Bean的方式将文件的内容注入到BloomFilter中
	/**
     * 将文件内容读入到布隆过滤器中
     * @return
     * @throws IOException
     */
    @Bean
    public BloomFilter bloomFilter() throws IOException{
        BloomFilter bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName("UTF-8")),5000000,0.01);
        FileInputStream fileInputStream = new FileInputStream(new File("D:\\ideaworkspace\\bloomfilter-test\\src\\main\\resources\\url.txt"));
        InputStreamReader inputStreamReader = new InputStreamReader(fileInputStream);
        BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
        String line;
        while(true){
            line = bufferedReader.readLine();
            if(line !=null){
                bloomFilter.put(line);
            }else{
                break;
            }
        }
        inputStreamReader.close();
        return bloomFilter;
    }
  • 测试Controller
@RestController
@RequestMapping("/api")
public class BloomFilterController {

    @Autowired
    private BloomFilter bloomFilter;

    @RequestMapping("/bloomFilter")
    public boolean bloomFilter(){
        String url = "https://www.TpxVs.com10";
        boolean flag = false;
        //判断是否包含这个内容
        if (bloomFilter.mightContain(url)) flag = true;
        return flag;
    }
}

在这里插入图片描述

在这里插入图片描述

  • 如果使用Set集合的话当数据量很大的情况下,会报堆内存溢出的报错。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

互联网小阿祥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值