编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
例如将kitten一字转成sitting:
sitten (k->s)
sittin (e->i)
sitting (->g)
所以kitten和sitting的编辑距离是3。俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。
给出两个字符串a,b,求a和b的编辑距离。
Input
第1行:字符串a(a的长度 <= 1000)。 第2行:字符串b(b的长度 <= 1000)。
Output
输出a和b的编辑距离
Input示例
kitten sitting
Output示例
3
题解:我们来分析状态转移过程:
(1) 必须S[i] == T[j], 这时前i – 1和j – 1位都已经对齐了,这部分肯定要最少扣分。这种情况下最少的扣分是f(i-1,j-1)
(2) 和(1)类似,S[i]≠T[j],这种情况下最少的扣分是f(i -1, j – 1) + 1
(3) S的前i位和T的前(j – 1)位已经对齐了,这部分扣分也要最少。这种情况下最少的扣分是f(i,j-1) + 1
(4) S的前(i-1)位已经和T的前j位对齐了,这部分扣分要最少。这种情况下最少的扣分是f(i-1,j) + 1
这样就能得到状态转移方程:
f(i,j) = min(f(i – 1, j – 1) +(S[i]==T[j]?0:1), f(i – 1,j ) + 1, f(i, j – 1) + 1)
代码如下:
#include<cstdio>
#include<cstring>
#include<algorithm>
using namespace std;
int dp[1010][1010];
char a[1010],b[1010];
int same(char i,char j)
{
if(i==j)
return 0;
else
return 1;
}
int main()
{
int lena,lenb,i,j;
while(scanf("%s%s",a,b)!=EOF)
{
lena=strlen(a);
lenb=strlen(b);
for(i=0;i<=lena;++i)
dp[i][0]=i;
for(i=0;i<=lenb;++i)
dp[0][i]=i;
dp[0][0]=0;
for(i=1;i<=lena;++i)
{
for(j=1;j<=lenb;++j)
{
dp[i][j]=min(dp[i-1][j-1]+same(a[i-1],b[j-1]),min(dp[i-1][j]+1,dp[i][j-1]+1));
}
}
printf("%d\n",dp[lena][lenb]);
}
return 0;
}