计算字符串的相似度(距离)-编程之美

9 篇文章 0 订阅

最近看编程之美,这个题目比较好,转化了问题。

许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不相同的字符串变得相同,具体的操作方法为:

1.修改一个字符(如把“a”替换为“b”)。
2.增加一个字符(如把“abdd”变为“aebdd”)。
3.删除一个字符(如把“travelling”变为“traveling”)。
比如,对于“abcdefg”和“abcdef”两个字符串来说,我们认为可以通过增加/减少一个“g“的方式来达到目的。上面的两种方案,都仅需要一次操作。把这个操作所需要的次数定义为两个字符串的 距离,给定任意两个字符串,你是否能写出一个算法来计算出它们的距离? (相似度为“距离+1”的倒数)

分析与解法

不难看出,两个字符串的距离肯定不超过它们的长度之和(我们可以通过删除操作把两个串都转化为空串)。虽然这个结论对结果没有帮助,但至少可以知道,任意两个字符串的距离都是有限的。
我们还是应该集中考虑如何才能把这个问题转化成规模较小的同样的问题。如果有两个串A=xabcdae和B=xfdfa,它们的第一个字符是相同的,只要计算A[2,…,7]=abcdae和B[2,…,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同,那么可以进行如下的操作(lenA和lenB分别是A串和B串的长度):
1.删除A串的第一个字符,然后计算A[2,…,lenA]和B[1,…,lenB]的距离。
2.删除B串的第一个字符,然后计算A[1,…,lenA]和B[2,…,lenB]的距离。
3.修改A串的第一个字符为B串的第一个字符,然后计算A[2,…,lenA]和B[2,…,lenB]的距离。
4.修改B串的第一个字符为A串的第一个字符,然后计算A[2,…,lenA]和B[2,…,lenB]的距离。
5.增加B串的第一个字符到A串的第一个字符之前,然后计算A[1,…,lenA]和B[2,…,lenB]的距离。
6.增加A串的第一个字符到B串的第一个字符之前,然后计算A[2,…,lenA]和B[1,…,lenB]的距离。


在这个题目中,我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以,可以将上面6个操作合并为:
1.一步操作之后,再将A[2,…,lenA]和B[1,…,lenB]变成相同字符串。
2.一步操作之后,再将A[1,…,lenA]和B[2,…,lenB]变成相同字符串。
3.一步操作之后,再将A[2,…,lenA]和B[2,…,lenB]变成相同字符串。

这样,很快就可以完成一个递归程序。

不需要转化的:

f(i,j)=f(i+1,j+1);

在需要转化的步骤中:

f(i,j)=min(f(i+1,j+1)+1,f(i+1,j)+1,f(i,j+1)+1);

下面是我使用C原因实现的一个简单的示例。

#include<stdio.h>
#include<stdlib.h>
#include<string.h>
int calculate(char const *a,int astart,int aend,char const *b,int bstart,int bend)
{
        if(astart>aend)
        {
                if(bstart>bend)
                        return 0;
                else
                        return bend-bstart+1;
        }
        if(bstart>bend)
        {
                if(astart>aend)
                {
                        return 0;
                }
                else
                        return aend-astart+1;
        }
        if(a[astart]==b[bstart])
        {
                return calculate(a,astart+1,aend,b,bstart+1,bend);
        }
        else
        {
                int t1=calculate(a,astart+1,aend,b,bstart,bend)+1;
                int t2=calculate(a,astart,aend,b,bstart+1,bend)+1;
                int t3=calculate(a,astart+1,aend,b,bstart+1,bend)+1;
                return t3<(t1<t2?t1:t2)?t3:(t1<t2?t1:t2);
        }
}
int main()
{
        char *a="aqa";
        char *b="qaa";

        printf("a=%s\n",a);
        printf("b=%s\n",b);
        int dis=calculate(a,0,strlen(a)-1,b,0,strlen(b)-1);
        printf("distance between a and b is :%d\n",dis);
        return 0;
}
                                              

其实可以发现,其中有很多的重复计算,可以对它进行优化,优化的代码过几天贴上来:

通过一个result数组记录已经计算过的子问题的答案,避免重复计算。

result 矩阵:


#include<stdio.h>
#include<stdlib.h>
#include<string.h>
int max(int a, int b){
        return a>=b? a:b;
}

int calculate(char const *a,int astart,int aend,char const *b,int bstart,int bend,int **result)
{
        if(astart>aend||bstart>bend)
        {
                return max(aend-astart+1,bend-bstart+1);
        }
        if(result[astart][bstart] >= 0)
                return result[astart][bstart];

        if(a[astart]==b[bstart])
        {
                return result[astart][bstart]=calculate(a,astart+1,aend,b,bstart+1,bend,result);
        }
        else
        {
                int t1,t2,t3;
                t1=calculate(a,astart+1,aend,b,bstart,bend,result)+1;
                t2=calculate(a,astart,aend,b,bstart+1,bend,result)+1;
                t3=calculate(a,astart+1,aend,b,bstart+1,bend,result)+1;
                return result[astart][bstart] = t3<(t1<t2?t1:t2)?t3:(t1<t2?t1:t2);
        }
}
int main()
{
        int i,j;
        char a[100];
        char b[100];
        gets(a);
        gets(b);
        printf("a=%s\n",a);
        printf("b=%s\n",b);
        int **result=(int **)malloc((strlen(a))*sizeof(int*));
        if(result==NULL) {printf("calloc error");return 1;}
        for(i=0;i<strlen(a);i++)
        {
                result[i]=(int*)malloc((strlen(b)+100)*sizeof(int));
                if(result[i]==NULL){printf("calloc error");return 1;}
        }
        for(i=0;i<strlen(a);i++)
        {
                for(j=0;j<strlen(b);j++)
                {
                        result[i][j]=-1;
                }
        }
        int dis=calculate(a,0,strlen(a)-1,b,0,strlen(b)-1,result);
        printf("\nresult:\n");
        for(i=0;i<strlen(a);i++)
        {
                for(j=0;j<strlen(b);j++)
                {
                        printf("%4d",result[i][j]);
                }
                printf("\n");
        }
        printf("distance between a and b is :%d\n",dis);
        return 0;
}







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值