万亿级记录数,如何实现高性能模糊匹配搜索?

模糊匹配在我们日常的数据筛选场景很常见。

常见模糊匹配方案

我们先从最简单的代码说起,对于模糊匹配的关键字like,SQL,java等很多语言中都很常见,配合两个百分号(如:like ‘%mp3%’),能对数据的某字段进行文本包含的筛选(将字段中包含mp3的数据筛选出来),完整的学名:正则匹配。先从简单的问题入手,从一批搜索原词中,抽取出包含mp3或者包含mp4的搜索原词,我们可以拿SQL来对这个问题做一个完美的诠释。

select kw from table where kw like '%mp3%' or kw like '%mp4%'

思路是,将每一个搜索词对mp3和mp4这两个核心词逐个做匹配后筛选,其最后的结果就是我们想要的,那么有1000个搜索原词,遍历完2000次就可以得到最终结果

接着,我们将这两个核心词的体量放大,变成100个核心词,将1000个搜索原词对这100个核心词进行一次模糊匹配,并筛选匹配结果,按照刚才的思路,遍历次数就变成了1000x100 = 100000次,工程上就是需要将搜索原词表与核心词表做一次笛卡尔积以后,然后用原词去like核心词,在这样的一个量下,性能上还都是可以接受的。

万亿记录数的模糊匹配怎么做?

上述都是理想情况,现实社会总是会给你降维打击

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值