2个字符串,把s1转换到s2最少操作,并且把这个操作过程输出。
操作包括3种:删除一个字符,增加一个字符,改变一个字符,操作仅对s1执行,使其等于s2.
算法思想:
动态规划
b[i][j]表示s1[1..i]和s2[1..j]之间最短编辑距离。
显然初始
b[0][j]=j;b[i][0]=i;因为s1为空,则需要增加j个字符,s2为空,则需要删除i个字符。
递归公式:
b[i][j]=min(b[i-1]][j]+1,b[i][j-1]+1,b[i-1][j-1]+(s1[i]==s2[j]?0:1));
假设是从s1[1..i]到s2[1..j]操作步骤
根据b[i-1]][j]+1,b[i][j-1]+1,b[i][j]+(s1[i]==s2[i]?0:1) 这几个值的大小选择操作。
如果b[i-1]][j]+1最小,说明是从s1[1..i]最后一个字符删除。
如果b[i][j-1]+1最小,说明是向s1[1..i]最后增加一个字符。
如果b[i-1][j-1]+(s1[i]==s2[i]?0:1),说明是改变一个s1[1..i]的最后一个字符和s2[1..j]相同,如果已经相同,则不需要操作。
#include <stdio.h>
#include <string.h>
int find_distance(char a[], char b[], int len_a, int len_b)
{
if(a==NULL || b==NULL || len_a<=0 || len_b<=0)
return 0;
int i,j;
int **edge = new int*[len_a+1];//edge[i][j]记录a[0...i-1]和b[0...j-1]字符串的最小编辑距离
for(i=0;i<len_a+1;i++)
edge[i] = new int[len_b+1];
for(i=0;i<len_a+1;i++)//初始化第一列,edge[i][0]相当于是a[0...i-1]删除i个元素得到,所以edge[i][0]=i
edge[i][0] = i;
for(i=0;i<len_b+1;i++)//初始化第一行,edge[0][i]相当于需要增加i个元素才能得到b[0...i-1],所以edge[0][i]=i
edge[0][i] = i;
for(i=1;i<len_a+1;i++)
{
for(j=1;j<len_b+1;j++)
{
int temp;
if(a[i-1]==b[j-1])//注意这里是i-1
temp=0;//为0,说明a[i-1]不需要改变成b[j-1]
else
temp=1;//为1,说明a[i-1]需要改变成b[j-1],编辑距离加1
int a = edge[i-1][j]+1;//说明字符串a需要删除a[i-1],编辑距离加1
int b = edge[i][j-1]+1;//说明字符串a需要在最后添加b[j-1],编辑距离加1
int c = edge[i-1][j-1]+temp;//说明字符串a在a[j-1]处是否替换成b[j-1],temp为0不替换,temp为1替换且编辑距离加1
int max = a<b?a:b;
max = max<c?max:c;
edge[i][j] = max;//三者中的最小值作为edge[i][j],即a[0...i-1]和b[0...j-1]的最小编辑距离
}
}
return edge[len_a][len_b];//矩阵最后一个值是两个字符串的最终编辑距离
}
int main()
{
char a[20],b[20];
printf("请输入第一个字符串:");
scanf("%s",a);
printf("请输入第二个字符串:");
scanf("%s",b);
int len_a = strlen(a);
int len_b = strlen(b);
int max_len = len_a > len_b ? len_a : len_b;
int distance = find_distance(a,b,len_a,len_b);
float rate = 1 - (float)distance/(float)max_len;//max_len是两个字符串长度中长的那个
printf("字符串编辑距离为:%d\n",distance);
printf("字符串相似度为:%f%%\n",rate*100);//打印百分数需要%%,连续两个%能够打印出%
return 0;
}
参考:http://hi.baidu.com/huifeng00/item/e5b30328465b43f150fd8791