例题 1:最长公共子序列
题目描述:
一个给定序列的子序列是在该序列中删去若干元素后得到的序列。确切地说,若给定序列X=<x1,x2,…,xm>,则另一序列Z=<z1,z2,…,zk>是X的子序列是指存在一个严格递增的下标序列<i1,i2,…,ik>,使得对于所有j=1,2,…,k有:
Xij=Zj
例如,序列Z=<B,C,D,B>是序列X=<A,B,C,B,D,A,B>的子序列,相应的递增下标序列为<2,3,5,7>。给定两个序列X和Y,当另一序列Z既是X的子序列又是Y的子序列时,称Z是序列X和Y的公共子序列。例如,若X=<A,B,C,B,D,A,B>和Y=<B,D,C,A,B,A>,则序列<B,C,A>是X和Y的一个公共子序列,序列 <B,C,B,A>也是X和Y的一个公共子序列。而且,后者是X和Y的一个最长公共子序列.因为X和Y没有长度大于4的公共子序列。
给定两个序列X=<x1,x2,…,xm>和Y=<y1,y2….yn>.要求找出X和Y的一个最长公共子序列。
【输入格式】
输入文件共有两行。每行为一个由大写字母构成的长度不超过200的字符串,表示序列X和Y。
【输出格式】
输出文件第一行为一个非负整数。表示所求得的最长公共子序列的长度。若不存在公共子序列.则输出文件仅有一行输出一个整数0。否则在输出文件的第二行输出所求得的最长公共子序列(也用一个大写字母组成的字符串表示)。若符合条件的最长公共子序列不止一个,只需输出其中任意一个。
【样例输入】
ABCBDAB
BDCABA
【样例输出】
4
提示及扩展:
最长公共子串(Longest Common Substirng)和最长公共子序列(Longest Common Subsequence,LCS)的区别为:子串是串的一个连续的部分,子序列则是从不改变序列的顺序,而从序列中去掉任意的元素而获得新的序列;也就是说,子串中字符的位置必须是连续的,子序列则可以不必连续。字符串长度小于等于1000。
算法分析:
与最长不下降子序列(LIS)类似的,我们可以以子序列的结尾作为状态,但现在有两个子序列,那么直接以两个子序列当前的结尾作为状态即可。
1.dp 数组的定义:
dp[i][j] 表示 X[1...i] 和 Y[1...j]的最长公共子序列长度,即表示以字符串X
的前i
个字符和字符串Y
的前j
个字符为结尾的最长公共子序列的长度。
则最终答案为:dp[len(X)][len(Y)]
2.状态转移方程:
case 1: 当X[x] 不在公共子序列中时,该情况下,dp[x][y] = dp[x-1][y];
case 2: 当Y[y] 不在在公共子序列中时,该情况下,dp[x][y] = dp[x][y-1];
case 3: 当X[x] == Y[y] ,X[x] 和 Y[y] 都在公共子序列中时,则 dp[x][y] = dp[x-1][y-1];
dp[x][y]取上述三种情况的最大值。
即dp[i][j] = max(dp[i-1][j], dp[i][j-1])
。
综上,dp[x][y] 取上述三种情况的最大值即可,因此 dp 数组的状态转移方程为:
dp[x][y] = max( dp[x -1][y], dp[x][y -1], dp[ x-1][y-1] + 1)
3.dp 数组的初始化:
根据题意以及 dp 数组的定义很容易知:
dp[0][y] = 0;
dp[x][0] = 0;
核心代码部分:
for(int i=1; i<=lenX; i++){
for(int j=1; j<=lenY; j++){
dp[i][j] = max(dp[i-1][j], dp[i][j-1]);
if(X[i-1] == Y[j-1]){
dp[i][j] = max(dp[i][j], dp[i-1][j-1]+1);
}
}
}
注意:
上面的代码肯定有小伙伴疑惑为什么是当 X[i-1] == Y[j-1] 的时候才执行情况3(case 3)而不是根据 case3 的理论推导当 X[i] == Y[j] 时执行dp[x][y] = dp[x-1][y-1]呢?
原因如下:
因为字符串相当于一个字符数组,下标是从 0 开始的,例如字符串 "abc" 中 字符 "a" 的下标是 0,所以在该代码中,判断其末尾字符对应的下标应该时其实际长度减 1,然后根据 case3(X[x] 和 Y[y] 都在公共子序列中,则 dp[x][y] = dp[x-1][y-1]) 可知,正确的判断第三种情况的代码应为:
if(X[i-1] == Y[j-1])
则完整代码如下:
#include<bits/stdc++.h>
using namespace std;
const int maxl = 2000;
int dp[maxl][maxl];
int main(){
string X, Y;
cin >> X;
cin >> Y;
int lenX = X.length();
int lenY = Y.length();
// dp 数组初始化
for(int i=0; i<=lenX; i++)
dp[i][0] = 0;
for(int i=0; i<=lenY; i++)
dp[0][i] = 0;
// 数据处理
for(int i=1; i<=lenX; i++){
for(int j=1; j<=lenY; j++){
dp[i][j] = max(dp[i-1][j], dp[i][j-1]);
if(X[i-1] == Y[j-1]){
dp[i][j] = max(dp[i][j], dp[i-1][j-1]+1);
}
}
}
cout << dp[lenX][lenY] << endl;
return 0;
}
注意:代码中的边界问题!
在上述代码中,输出dp[lenX][lenY]
而不是dp[lenX-1][lenY-1]
的原因是:dp[lenX][lenY]
表示以字符串X
的全部字符和字符串Y
的全部字符为结尾的最长公共子序列的长度,即整个字符串的最长公共子序列的长度。
状态转移方程含义再次回顾!
在计算最长公共子序列的长度时,需要考虑到字符串的最后一个字符。当字符串 X 的最后一个字符X[i-1]不
等于字符串 Y 的最后一个字符Y[j-1]
时,说明当前字符匹配,最长公共子序列可以在之前的基础上增加当前字符,即dp[i][j] = dp[i-1][j-1]+1
。当字符串 X 的最后一个字符X[i-1]
等于字符串 Y 的最后一个字符Y[j-1]
时,说明当前字符不匹配,需要选择X
的前i-1
个字符或Y
的前j-1
个字符作为最长公共子序列的结尾,并取两者中的最大值,即dp[i][j] = max(dp[i-1][j], dp[i][j-1])
。
到这,你肯定对最长公共子序列有了自己的一定的认识和理解了!
下面咱再做一题 leetcode 题练习一下吧!
例题 2:leetcode最长公共子序列
原题链接:. - 力扣(LeetCode)
该题与例题 1 不能说类似相像,只能说是完全一模一样了哈哈哈,具体代码分析咱就不再重复叙述了哈。
该题完整代码如下:
class Solution {
public:
int longestCommonSubsequence(string text1, string text2) {
int dp[2000][2000];
memset(dp,0,sizeof(dp));
int l1 = text1.length();
int l2 = text2.length();
for (int i = 1; i <= l1; i++) {
for (int j = 1; j <= l2; j++) {
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]);
if (text1[i - 1] == text2[j - 1]) {
dp[i][j] = max(dp[i][j], dp[i - 1][j - 1] + 1);
}
}
}
return dp[l1][l2];
}
};
时间复杂度为 O(m*n)。