最近的项目需要在大数据里面匹对字典里面最意思相近的字符串
两个字符串之间匹对的准确率得分计算 使用FuzzyWuzzy可以简单计算出分数
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法 计算两个序列之间的差异。
Levenshtein Distance
算法,又叫 Edit Distance
算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
使用说明
maven坐标
<!-- https://mvnrepository.com/artifact/me.xdrop/fuzzywuzzy --> <dependency> <groupId>me.xdrop</groupId> <artifactId>fuzzywuzzy</artifactId> <version>1.2.0</version> </dependency>
简单使用