最长公共子序列:一个序列 S ,如果分别是两个或多个已知序列的子序列,且是所有符合此条件序列中最长的,则 S 称为已知序列的最长公共子序列。最长公共子序列与最长公共子串(要求连续)是不同的。
比如ADE和ABCDE的最长公共子序列是ADE。
复杂度:对于一般性的LCS问题(即任意数量的序列)是属于NP-hard。但当序列的数量确定时,问题可以使用动态规划(Dynamic Programming)在多项式时间解决。
最长公共子序列是一个十分实用的问题,它可以描述两段文字之间的“相似度”,即它们的雷同程度,从而能够用来辨别抄袭。对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,这种方法判断修改的部分,往往十分准确。
注意:最长公共序列的定义中,并不要求最长公共子序列必须连续出现在两个字符串中,只需要能保持顺序的出现在序列中即可.
算法:
动态规划的一个计算最长公共子序列的方法如下,以两个序列 X、Y 为例子:
设有二维数组 f[i][j] 表示 X 的 i 位和 Y 的 j 位之前的最长公共子序列的长度,则有:
f[1][1] = same(1,1)
f[i][j] = max\{f[i-1][j-1] + same(i,j), f[i-1][j],f[i][j-1]\}
其中,same(a,b)当 X 的第 a 位与 Y 的第 b 位完全相同时为“1”,否则为“0”。
此时,f[i][j]中最大的数便是 X 和 Y 的最长公共子序列的长度,依据该数组回溯,便可找出最长公共子序列。
该算法的空间、时间复杂度均为O(n^{2}),经过优化后,空间复杂度可为O(n),时间复杂度为O(n\log n)。
code:
在递归过程中使用dp记录已经计算过的状态。
dp[i][j]记录的是:str1以i位置开始的字符串,str2以j为位置开始的字符串的最大公共子序列。
#include<iostream>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<algorithm>
using namespace std;
const int N=1001;
int dp[N][N];
int lcs_seq(char *str1,int b1,int la1,char *str2,int b2,int la2){
if(b1>la1||b2>la2)
return 0;
int t1,t2,t3;
if(dp[b1+1][b2]==-1){
t1=lcs_seq(str1,b1+1,la1,str2,b2,la2);
dp[b1+1][b2]=t1;
}
else
t1=dp[b1+1][b2];
if(dp[b1][b2+1]==-1){
t2=lcs_seq(str1,b1,la1,str2,b2+1,la2);
dp[b1][b2+1]=t2;
}
else
t2=dp[b1][b2+1];
int same=0;
if(str1[b1]==str2[b2])
same=1;
if(dp[b1+1][b2+1]==-1){
t3=lcs_seq(str1,b1+1,la1,str2,b2+1,la2)+same;
dp[b1+1][b2+1]=t3;
}
else
t3=dp[b1+1][b2+1]+same;
t1=max(t1,t2);
t1=max(t1,t3);
dp[b1][b2]=t1;
return t1;
}
int main()
{
int n,i;
scanf("%d",&n);
for(i=0;i<n;i++){
char str1[N],str2[N];
scanf("%s%s",str1,str2);
memset(dp,-1,sizeof(dp));
int sum=lcs_seq(str1,0,strlen(str1)-1,str2,0,strlen(str2)-1);
printf("%d\n",sum);
}
return 0;
}
str1[i]==str2[i],
那么,它的子问题就是dp[i+1][j+1];
否则需要判断哪个子问题可以返回更大的子串。
#include<iostream>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<algorithm>
#include<stack>
using namespace std;
const int N=1001;
int dp[N][N];
int lcs_seq(char *str1,int b1,int la1,char *str2,int b2,int la2){
if(b1>la1||b2>la2)
return 0;
int t1,t2,t3;
if(dp[b1+1][b2]==-1){
t1=lcs_seq(str1,b1+1,la1,str2,b2,la2);
dp[b1+1][b2]=t1;
}
else
t1=dp[b1+1][b2];
if(dp[b1][b2+1]==-1){
t2=lcs_seq(str1,b1,la1,str2,b2+1,la2);
dp[b1][b2+1]=t2;
}
else
t2=dp[b1][b2+1];
int same=0;
if(str1[b1]==str2[b2])
same=1;
if(dp[b1+1][b2+1]==-1){
t3=lcs_seq(str1,b1+1,la1,str2,b2+1,la2)+same;
dp[b1+1][b2+1]=t3;
}
else
t3=dp[b1+1][b2+1]+same;
t1=max(t1,t2);
t1=max(t1,t3);
dp[b1][b2]=t1;
return t1;
}
void print_lcs(int i,int len1,int j,int len2,char *str1,char *str2)
{
if(i<len1&&j<len2){
if(str1[i]==str2[j])
{
printf("%c",str1[i]);
print_lcs(i+1,len1,j+1,len2,str1,str2);
}
else if(dp[i+1][j]>=dp[i][j+1])
print_lcs(i+1,len1,j,len2,str1,str2);
else
print_lcs(i,len1,j+1,len2,str1,str2);
}
}
int main()
{
int n,i;
char str1[N],str2[N];
while(scanf("%s%s",str1,str2)!=EOF){
memset(dp,-1,sizeof(dp));
int sum=lcs_seq(str1,0,strlen(str1)-1,str2,0,strlen(str2)-1);
printf("%d\n",sum);
print_lcs(0,strlen(str1),0,strlen(str2),str1,str2);
printf("\n");
}
return 0;
}
将递归改为循环,减少了程序中一些判断。
#include<iostream>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<algorithm>
#include<stack>
using namespace std;
const int N=1001;
int dp[N+1][N+1];
int lcs_seq(char *str1,int len1,char *str2,int len2){
int i,j;
for(i=len1-1;i>=0;i--)
for(j=len2-1;j>=0;j--){
if(str1[i]=='\0'||str2[j]=='\0')
dp[i][j]=0;
else if(str1[i]==str2[j])
dp[i][j]=dp[i+1][j+1]+1;
else
dp[i][j]=max(dp[i+1][j],dp[i][j+1]);
}
return dp[0][0];
}
void print_lcs(int i,int len1,int j,int len2,char *str1,char *str2)
{
if(i<len1&&j<len2){
if(str1[i]==str2[j])
{
printf("%c",str1[i]);
print_lcs(i+1,len1,j+1,len2,str1,str2);
}
else if(dp[i+1][j]>=dp[i][j+1])
print_lcs(i+1,len1,j,len2,str1,str2);
else
print_lcs(i,len1,j+1,len2,str1,str2);
}
}
int main()
{
int n,i;
char str1[N],str2[N];
while(scanf("%s%s",str1,str2)!=EOF){
memset(dp,0,sizeof(dp));
int sum=lcs_seq(str1,strlen(str1),str2,strlen(str2));
printf("%d\n",sum);
print_lcs(0,strlen(str1),0,strlen(str2),str1,str2);
printf("\n");
}
return 0;
}
例题:
最长公共子序列:http://acm.nyist.net/JudgeOnline/problem.php?pid=36
poj:http://poj.org/problem?id=1458
参考文献:
维基:http://en.wikipedia.org/wiki/Longest_common_subsequence_problem
最大子序列、最长递增子序列、最长公共子串、最长公共子序列、字符串编辑距离:http://www.cnblogs.com/zhangchaoyang/articles/2012070.html
算法讲解:http://www.ics.uci.edu/~eppstein/161/960229.html