莱文斯坦距离,又称Levenshtein距离,是编辑距离的一种。指两个字串之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括:将一个字符替换成另一个字符,插入一个字符,删除一个字符。
LD算法原理:
-
算法目的:计算出两字符序列的编辑距离,同时也能求出两序列的匹配序列
-
假设:
比对的俩序列为:
则两序列的长度分别为len(A) = n,Len(B)=m;
LD(A,B):字符串A和字符串B的编辑距离,即将字符串A转换为字符串B所用的最少字符操作数。
LD(A,B)=0表示两个字符串完全一样。
LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M -
算法步骤:
- 初始化算法分数矩阵H,使行i表示字符ai,列j表示字符bj;
- 计算矩阵中每一项的LD(i, j):
若ai = bj,则LD(i, j) = LD(i-1, j-1) 取左上角的值
若ai ≠ bj,则LD(i, j) = Min( LD(i-1, j-1), LD(i-1, j), LD(i, j-1) ) +1 - 回溯,从矩阵右下角开始:
若ai=bj,则回