相似度计算方法-编辑距离 (Edit Distance)

xy2006860

已于 2024-08-15 13:42:03 修改

阅读量3.6k

点赞数 32

文章标签：算法

于 2024-08-15 13:39:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xy2006860/article/details/141217016

版权

定义

编辑距离（Edit Distance），也称为Levenshtein距离，是一种衡量两个字符串相似度的方法。它定义为从一个字符串转换为另一个字符串所需的最少单字符编辑操作次数，这些操作包括插入、删除或替换一个字符。

计算方法

对于两个字符串 $S_1 = (s_{11}, s_{12}, \ldots, s_{1m})$ 和 $S_2 = (s_{21}, s_{22}, \ldots, s_{2n})$ ，编辑距离 $d_E(S_1, S_2)$ 可以通过动态规划的方式计算，其中 $m$ 和 $n$ 分别是 $S_1$ 和 $S_2$ 的长度。

定义一个 $(m+1) \times (n+1)$ 的矩阵 $D$ ，其中 $D[i][j]$ 表示 $S_1$ 的前 $i$ 个字符到 $S_2$ 的前 $j$ 个字符的编辑距离。

初始化矩阵的第一行和第一列为：

$D[i][0] = i \quad \text{for } 0 \leq i \leq m$
$D[0][j] = j \quad \text{for } 0 \leq j \leq n$

动态规划的状态转移方程为：

$D[i][j] = \min \left( \begin{array}{c} D[i-1][j] + 1 \\ D[i][j-1] + 1 \\ D[i-1][j-1] + 1_{s_{1i} \neq s_{2j}} \end{array} \right)$

其中 $1_{s_{1i} \neq s_{2j}}$ 是指示函数，当 $s_{1i} \neq s_{2j}$ 时返回 1，否则返回 0。

最终的编辑距离为：

$d_E(S_1, S_2) = D[m][n]$ </

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。