Flink中的布隆过滤器结合Redis的实现

针对大量用户涌入导致的内存溢出问题,本文介绍了在Flink项目中利用布隆过滤器进行用户唯一标识(UV)去重的解决方案。通过在算子中集成布隆过滤器处理,并结合Redis进行数据存储,有效缓解了内存压力。
摘要由CSDN通过智能技术生成

场景: 同一时段大量用户涌入一个入口, 用常规的Set集合去重会造成OOM 

在Flink项目当中使用boolm过滤器进行UV的去重 

 

1. 算子进行计算 .process(new processFunWithBoolm())

2.实现一个布隆过滤器

class MyBloom(size: Long) extends Serializable {
  // 1<<27     1左移27 =2的27次方 = 134217728
  private val cap = if (size > 0) size else 1 << 27

  def hash(value: String, seed: Int): Long = {
    var result = 0L
    for (i <- 0 until value.length) {
      result = result * seed + value.charAt(i)
    }
    result & (cap - 1)
  }
}

3.调用processFunWithBoolm函数

class processFunWithBoolm() extends ProcessWindowFunction[(String, Long), UVcount, String, TimeWindow] {
  lazy val jedis = new Jedis("hadoop103", 6379)
  lazy private val bloom = new MyBloom(1 << 29) //64M大小的位图

  override def process(key: String,
                       context: Context, elements: Iterable[(String, Long)],
                       out: Collector[UVcount])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值