模糊匹配在我们日常的数据筛选场景很常见。
常见模糊匹配方案
我们先从最简单的代码说起,对于模糊匹配的关键字like,SQL,java等很多语言中都很常见,配合两个百分号(如:like ‘%mp3%’),能对数据的某字段进行文本包含的筛选(将字段中包含mp3的数据筛选出来),完整的学名:正则匹配。先从简单的问题入手,从一批搜索原词中,抽取出包含mp3或者包含mp4的搜索原词,我们可以拿SQL来对这个问题做一个完美的诠释。
select kw from table where kw like '%mp3%' or kw like '%mp4%'
思路是,将每一个搜索词对mp3和mp4这两个核心词逐个做匹配后筛选,其最后的结果就是我们想要的,那么有1000个搜索原词,遍历完2000次就可以得到最终结果。
接着,我们将这两个核心词的体量放大,变成100个核心词,将1000个搜索原词对这100个核心词进行一次模糊匹配,并筛选匹配结果,按照刚才的思路,遍历次数就变成了1000x100 = 100000次,工程上就是需要将搜索原词表与核心词表做一次笛卡尔积以后,然后用原词去like核心词,在这样的一个量下,性能上还都是可以接受的。
万亿记录数的模糊匹配怎么做?
上述都是理想情况,现实社会总是会给你降维打击