python 字符串相似度计算，距离算法

最新推荐文章于 2024-04-23 10:48:57 发布

多动脑，多动手

最新推荐文章于 2024-04-23 10:48:57 发布

阅读量8.6k

点赞数 3

分类专栏： python 文章标签：字符串相似度相似度计算距离算法

本文链接：https://blog.csdn.net/wu1yr/article/details/82586277

版权

字符串的相似性比较应用场合很多，像拼写纠错、文本去重、上下文相似性等，判断2个文字列的相似度的多少，合理使用的话就可以实现Google、百度等搜索引擎中的 ‘你是不是要找‘XX’’ 的功能了。

字符串相似度最常见的办法就是：把一个字符串通过插入、删除或替换为另一个字符串，所需要的最少编辑次数，这种就是编辑距离（edit distance）度量方法，也称为Levenshtein距离。海明距离是编辑距离的一种特殊情况，只计算等长情况下替换操作的编辑次数，只能应用于两个等长字符串间的距离度量。其他常用的度量方法还有 Jaccard distance、J-W距离（Jaro–Winkler distance）、余弦相似性（cosine similarity）、欧氏距离（Euclidean distance）等

import difflib
import Levenshtein

str1 = "未来资金还款来源主要包括上市公司分红"
str2 = "未来还款资金来源主要包括个人日常收入"

# 1. difflib
seq = difflib.SequenceMatcher(None, str1, str2)
ratio = seq.ratio()
print('difflib similarity1: ', ratio)
#返回的结果超过0.6就算很相似。目前做近义词词典就是借助相似度自动化来实现。

# difflib 去掉列表中不需要比较的字符
seq = difflib.SequenceMatcher(lambda x: x in '主要', str1, str2)
ratio = seq.ratio()
print('difflib similarity2: ',

最低0.47元/天解锁文章

多动脑，多动手

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
python 字符串相似度计算，距离算法

字符串的相似性比较应用场合很多，像拼写纠错、文本去重、上下文相似性等，判断2个文字列的相似度的多少，合理使用的话就可以实现Google、百度等搜索引擎中的 ‘你是不是要找‘XX’’ 的功能了。字符串相似度最常见的办法就是：把一个字符串通过插入、删除或替换为另一个字符串，所需要的最少编辑次数，这种就是编辑距离（edit distance）度量方法，也称为Levenshtein距离。海明距离是编辑...
复制链接

扫一扫