相似度计算方法-编辑距离 (Edit Distance)

定义

        编辑距离(Edit Distance),也称为Levenshtein距离,是一种衡量两个字符串相似度的方法。它定义为从一个字符串转换为另一个字符串所需的最少单字符编辑操作次数,这些操作包括插入、删除或替换一个字符。

计算方法

        对于两个字符串 S_1 = (s_{11}, s_{12}, \ldots, s_{1m})S_2 = (s_{21}, s_{22}, \ldots, s_{2n}),编辑距离 d_E(S_1, S_2) 可以通过动态规划的方式计算,其中mn分别是S_1S_2的长度。

        定义一个 (m+1) \times (n+1)的矩阵 D,其中 D[i][j] 表示 S_1 的前 i  个字符到 S_2 的前 j 个字符的编辑距离。

初始化矩阵的第一行和第一列为:

D[i][0] = i \quad \text{for } 0 \leq i \leq m
D[0][j] = j \quad \text{for } 0 \leq j \leq n

动态规划的状态转移方程为:

D[i][j] = \min \left( \begin{array}{c} D[i-1][j] + 1 \\ D[i][j-1] + 1 \\ D[i-1][j-1] + 1_{s_{1i} \neq s_{2j}} \end{array} \right)

其中 1_{s_{1i} \neq s_{2j}} 是指示函数,当  s_{1i} \neq s_{2j} 时返回 1,否则返回 0。

最终的编辑距离为:

d_E(S_1, S_2) = D[m][n]</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值