问题:
什么是最长公共子序列呢?好比一个数列 S,如果分别是两个或多个已知数列的子序列,且是所有符合此条件序列中最长的,则S 称为已知序列的最长公共子序列。
举个例子,如:有两条随机序列,如 1 3 4 5 5 ,and 2 4 5 5 7 6,则它们的最长公共子序列便是:4 5 5。
注意最长公共子串(Longest CommonSubstring)和最长公共子序列(LongestCommon Subsequence, LCS)的区别:子串(Substring)是串的一个连续的部分,子序列(Subsequence)则是从不改变序列的顺序,而从序列中去掉任意的元素而获得的新序列;更简略地说,前者(子串)的字符的位置必须连续,后者(子序列LCS)则不必。比如字符串acdfg同akdfc的最长公共子串为df,而他们的最长公共子序列是adf。LCS可以使用动态规划法解决。下文具体描述。
分析:
事实上,最长公共子序列问题也有最优子结构性质。
记:
Xi=﹤x1,⋯,xi﹥即X序列的前i个字符 (1≤i≤m)(前缀)
Yj=﹤y1,⋯,yj﹥即Y序列的前j个字符 (1≤j≤n)(前缀)
假定Z=﹤z1,⋯,zk﹥∈LCS(X , Y)。
若xm=yn(最后一个字符相同),则不难用反证法证明:该字符必是X与Y的任一最长公共子序列Z(设长度为k)的最后一个字符,即有zk = xm = yn 且显然有Zk-1∈LCS(Xm-1 , Yn-1)即Z的前缀Zk-1是Xm-1与Yn-1的最长公共子序列。此时,问题化归成求Xm-1与Yn-1的LCS(LCS(X , Y)的长度等于LCS(Xm-1 , Yn-1)的长度加1)。
若xm≠yn,则亦不难用反证法证明:要么Z∈LCS(Xm-1, Y),要么Z∈LCS(X , Yn-1)。由于zk≠xm与zk≠yn其中至少有一个必成立,若zk≠xm则有Z∈LCS(Xm-1 , Y),类似的,若zk≠yn 则有Z∈LCS(X , Yn-1)。此时,问题化归成求Xm-1与Y的LCS及X与Yn-1的LCS。LCS(X , Y)的长度为:max{LCS(Xm-1 , Y)的长度, LCS(X , Yn-1)的长度}。
* 得出最重要的一个公式:*
由于上述当xm≠yn的情况中,求LCS(Xm-1 , Y)的长度与LCS(X , Yn-1)的长度,这两个问题不是相互独立的:两者都需要求LCS(Xm-1,Yn-1)的长度。另外两个序列的LCS中包含了两个序列的前缀的LCS,故问题具有最优子结构性质考虑用动态规划法。
也就是说,解决这个LCS问题,你要求三个方面的东西:1、LCS(Xm-1,Yn-1)+1;2、LCS(Xm-1,Y),LCS(X,Yn-1);3、max{LCS(Xm-1,Y),LCS(X,Yn-1)}。
最长公共子序列(C语言代码):
//
// main.c
#include <stdio.h>
#include <stdlib.h>
char **b=NULL;
int **c=NULL;
int LCS_LENGTH(char *x,int m,char *y,int n)
{
int i=0;
int j=0;
b = (char **)malloc(n);
if (b == NULL) {
return -1;
}
for (j=0; j<m; j++) {
b[j] = (char *)malloc(m);
if (b[j]== NULL) {
return -1;
}
}
c = (int **)malloc(sizeof(int)*(n+1));
if (c == NULL) {
return -1;
}
for (j=0; j<m+1; j++) {
c[j] = (int *)malloc(sizeof(int)*(m+1));
if (c[j]== NULL) {
return -1;
}
}
for (i =1; i<=n; i++) {
c[i][0]=0;
}
for (j =0; j<=m; j++) {
c[0][j]=0;
}
for (i = 1; i<m+1; i++) {
for (j =1; j<n+1; j++) {
if (*(x+i-1)== *(y+j-1)) {
c[i][j] = c[i-1][j-1] + 1;
b[i-1][j-1]='!';
} else if(c[i-1][j]>=c[i][j-1]){
c[i][j] = c[i-1][j];
b[i-1][j-1]='@';
}
else{
c[i][j] = c[i][j-1];
b[i-1][j-1]='#';
}
}
}
return c[m][n];
}
void PRINT_LCS(char **b,char *x,int i,int j)
{
if (i==0 || j==0) {
return ;
}
if (b[i-1][j-1] == '!') {
PRINT_LCS(b,x,i-1,j-1);
printf("%c",*(x+i-1));
} else if(b[i-1][j-1] == '@'){
PRINT_LCS(b, x, i-1, j);
}
else{
PRINT_LCS(b, x, i, j-1);
}
}
int main(int argc, const char * argv[]) {
char aa[] = "ABCBDAB";
char bb[] = "BDCABA";
LCS_LENGTH(aa, sizeof(aa)-1, bb, sizeof(bb)-1);
PRINT_LCS(b, aa, sizeof(aa)-1, sizeof(bb)-1);
for (int i =0; i<sizeof(bb)-1; i++) {
free(b[i]);
b[i]=NULL;
}
free(b);
b=NULL;
for (int j =0; j<sizeof(bb)-1; j++) {
free(c[j]);
c[j]=NULL;
}
free(c);
c=NULL;
return 0;
}