文章目录
概述
利用python
库:fuzzywuzzy
及difflib
,两个库均可实现词粒度的模糊匹配,同时可设定模糊阈值,实现关键词的提取、地址匹配、语法检查等
fuzzywuzzy
pip install fuzzywuzzy
from fuzzywuzzy import process
from fuzzywuzzy import fuzz
fuzzy模块
- 模糊匹配方法
ratio()
——简单匹配,使用纯Levenshtein Distance
进行匹配。partial_ratio()
——非完全匹配,基于最佳的子串(substrings
)进行匹配token_set_ratio
——忽略顺序匹配,对字符串进行标记(tokenizes
)并在匹配之前按字母顺序对它们进行排序token_set_ratio
——去重子集匹配,对字符串进行标记(