编程之美读书笔记3.3— 计算字符串的相似度

  问题描述:

许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程序。我们定义一套操作方法来把两个不相同的 字符串变得相同,具体的操作方法为:

  1.修改一个字符(如把“a”替换为“b”);

  2.增加一个字符(如把“abdd”变为“aebdd”);

  3.删除一个字符(如把“travelling”变为“traveling”);

  比如,对于“abcdefg”和“abcdef”两个字符串来说,我们认为可以通过增加/减少一个“g”的方式来达到目的。上面的两种方案,都仅需要一 次 。把这个操作所需要的次数定义为两个字符串的距离,而相似度等于“距离+1”的倒数。也就是说,“abcdefg”和“abcdef”的距离为1,相似度 为1/2=0.5。

  给定任意两个字符串,你是否能写出一个算法来计算它们的相似度呢?


  分析与解法  

  不难看出,两个字符串的距离肯定不超过它们的长度之和(我们可以通过删除操作把两个串都转化为空串)。虽然这个结论对结果没有帮助,但至少可以知道,任意两个字符串的距离都是有限的。

  我们还是就住集中考虑如何才能把这个问题转化成规模较小的同样的子问题。如果有两个串A=xabcdae和B=xfdfa,它们的第一个字符是相同的,只要计算A[2,...,7]=abcdae和B[2,...,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同,那么可以进行如下的操作(lenA和lenB分别是A串和B串的长度)。

 1.删除A串的第一个字符,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

 2.删除B串的第一个字符,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

 3.修改A串的第一个字符为B串的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

 4.修改B串的第一个字符为A串的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

 5.增加B串的第一个字符到A串的第一个字符之前,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

 6.增加A串的第一个字符到B串的第一个字符之前,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

  在这个题目中,我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以,可以将上面的6个操作合并为:

  1.一步操作之后,再将A[2,...,lenA]和B[1,...,lenB]变成相字符串。

  2.一步操作之后,再将A[2,...,lenA]和B[2,...,lenB]变成相字符串。

  3.一步操作之后,再将A[1,...,lenA]和B[2,...,lenB]变成相字符串。

总结:

如果两个字符串A,B,若第一个字母相同,那么,其距离d就为distance(A[2-n],B[2-m])。

若首字母不相同,那么距离d就为min(distance(A[1-n],B[2-m]), distance(A[2-n],B[1-m]), distance(A[2-n],B[2-m]))+1。

这样,很快就可以完成一个递归程序。
  

原文算法代码

#include "stdio.h"
#include <string>
#include <iostream>
using namespace std;

int  CalculateStringDistance(string strA, int pABegin, int pAEnd, string strB, int pBBegin, int pBEnd)
{
	if(pABegin > pAEnd)
	{
		if(pBBegin > pBEnd)
			return 0; 
		else
			return pBEnd - pBBegin + 1;
	}

	if(pBBegin > pBEnd)
	{
		if(pABegin > pAEnd)
			return 0;
		else
			return pAEnd - pABegin + 1;
	}

	if(strA[pABegin] == strB[pBBegin])
	{
		return CalculateStringDistance(strA, pABegin + 1, pAEnd, strB, 
			pBBegin + 1, pBEnd);
	}
	else
	{
		int t1 = CalculateStringDistance(strA, pABegin + 1, pAEnd, strB, 
			pBBegin + 2, pBEnd);
		int t2 = CalculateStringDistance(strA, pABegin + 2, pAEnd, strB, 
			pBBegin + 1, pBEnd);
		int t3 = CalculateStringDistance(strA, pABegin + 2, pAEnd, strB, 
			pBBegin + 2, pBEnd);
		return min(min(t1,t2),min(t1,t3)) + 1;
	}
}



void main()
{
	string A="aef";
	string B="ab";
	cout<<CalculateStringDistance( A,  0,  2, B, 0, 1 );

}


上面的递归程序,有什么地方需要改进呢?在递归的过程中,有些数据被重复计算了。为了避免重复计算,我们可以将计算后的结果存储起来。
如下表所示
    j 
    C(i-1,j-1)  C(i-1,j) 
 i   C(i,j-1) C(i,j) 
     
     

我们注意到,当我们要计算distance(A[1,i],B[1,j])时,该值仅与红色部分的值相关。因此,我们只需要保存这些值即可。

解法2:

Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。

许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。

   a.首先是有两个字符串,这里写一个简单的 abc和abe

     b.将字符串想象成下面的结构。

A处 是一个标记,为了方便讲解,不是这个表的内容。

 

  abc a b c
abe 0 1 2 3
a 1 A处    
b 2      
e 3      

c.来计算A处 出得值

它的值取决于:左边的1、上边的1、左上角的0.

按照Levenshtein distance的意思:

上面的值和左面的值都要求加1,这样得到1+1=2。

A处 由于是两个a相同,左上角的值加0.这样得到0+0=0。

这是后有三个值,左边的计算后为2,上边的计算后为2,左上角的计算为0,所以A处 取他们里面最小的0.

d.于是表成为下面的样子

  abc a b c
abe 0 1 2 3
a 1 0    
b 2 B处    
e 3      

B处 会同样得到三个值,左边计算后为3,上边计算后为1,在B处 由于对应的字符为a、b,不相等,所以左上角应该在当前值的基础上加1,这样得到1+1=2,在(3,1,2)中选出最小的为B处的值。

e.于是表就更新了

 

  abc a b c
abe 0 1 2 3
a 1 0    
b 2 1    
e 3 C处    

C处 计算后:上面的值为2,左边的值为4,左上角的:a和e不相同,所以加1,即2+1,左上角的为3。

在(2,4,3)中取最小的为C处 的值。

f.于是依次推得到

    a b c
  0 1 2 3
a 1 A处 0 D处 1 G处 2
b 2 B处 1 E处 0 H处 1
e 3 C处 2 F处 1 I处 1

 

I处: 表示abc 和abe 有1个需要编辑的操作。这个是需要计算出来的。

同时,也获得一些额外的信息。

A处: 表示a      和a      需要有0个操作。字符串一样

B处: 表示ab    和a      需要有1个操作。

C处: 表示abe  和a      需要有2个操作。

D处: 表示a      和ab    需要有1个操作。

E处: 表示ab    和ab    需要有0个操作。字符串一样

F处: 表示abe  和ab    需要有1个操作。

G处: 表示a      和abc   需要有2个操作。

H处: 表示ab    和abc    需要有1个操作。

I处: 表示abe   和abc    需要有1个操作。


#include "stdio.h"
#include <string>
#include <iostream>
using namespace std;

#define n  1
#define m 2
int distance(const char *A,const char *B)
{cout<<'a';
int C[n+1][m+1];
int i,j;
for( i=1; i<=n; i++)
	C[i][0] = i;

for(i=1; i<=m; i++)
	C[0][i] = i;
C[0][0]=0;

for(i=0; i<=n; i++)
{    
	for(j=0; j<=m; j++)
	{
		cout<<C[i][j] ;
	}
	cout<<endl;
}

int x,y,z;

for(i=1; i<=n; i++)
	for(j=1; j<=m; j++)
	{
		x = C[i-1][j]+1;
		y = C[i][j-1]+1;
		if(A[i-1] == B[j-1])
			z = C[i-1][j-1];
		else
			z = C[i-1][j-1]+1;
		C[i][j] = min(min(x,y),z);
	}
	return C[n][m];
}
void main()
{
	char * s1="a";
	char * s2="ab";
	distance(s1,s2);


}





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值