如果字符串一的所有字符按其在字符串中的顺序出现在另外一个字符串二中,则字符串一称之为字符串二的子串。注意,并不要求子串(字符串一)的字符必须连续出现在字符串二中。请编写一个函数,输入两个字符串,求它们的最长公共子序列,并打印出最长公共子序列。
例如:输入两个字符串BDCABA和ABCBDAB,字符串BCBA和BDAB都是是它们的最长公共子序列,则输出它们的长度4。
EXAMPLE INPUT
BDCABA
ABCBDAB
EXAMPLE OUTPUT
4
解题思路:
有几种思考方向:
设较长的字符串为A,较短的字符串为B。
第一种,保持A动,让B动起来,把B的字符一个个在A上遍历,如果有,返回真,没有,返回假。
这时候问题来了:
假设B的第一个字符在A中找到了,B中第二个字符在A中也找到了,我们需要判断它们在A中的位置关系是否与B中一样;
判断完之后,继续判断B中第三个字符,如不存在,这时候,不能马上把这个字符抹去,得保留,因为我们不知道以这个字符为起点的另外一个字符串是不是满足条件的最长公共子串。
这样就有两个自序列必须保留,以此类推,可以预见的是
当B足够长的话,我们必须建立足够多的子字符串来表示这些零碎的子字符串,最后取它们中长度最大的那一个。
事实上,这实现起来相当困难。
那就换一种思路。
动态规划。
证明两个:
1.最优解原理
2.后无效性原则
设两个字符串分别为A,B(没有长短之分)
设LCS(i,j) 表示
A的前i个字符组成的字符串 与
B的前j个字符组成的字符串 的
最长公共子串的长度。
是不是看得头晕眼花?那就多看几遍知道看明白。
对与A[i] 与 B[j],这里表示的是A的第i+1个字符,B的第 j+1个字符.因为下标是从零开始的。
此时,如果A[i]==B[j],则此时,我们可以把A[i] 与 B[j]抹去,计算LCS(i-1,j-1);
而且,LCS(i,j)=LCS(i-1,j-1)+1;
在这里,为什么上式一定是正确的?
反证法:
那么假设有某条途径LIS(i-1,j-1)到达LCS(i,j)的值比LCS(i-1,j-1)的值要大,
这是荒谬的,因为假如在i,j,之前有另一个值
LIS(i-1,j-1)虽然不是最优解,但是,它通过A[i]和B[j]这两个长度的字符串的比较操作,使得它成为最优解,
那么事实上,它后来包含的字符一定包含在LCS(i-1,j-1)里面,因为LIS(i-1,j-1)与LCS(i-1,j-1)它们的b包含的A,B序列相同。
所以满足了最优子结构特征。
符合动态规划。
再来看
若A[i]!=B[j]的情况。
那么只考虑max(LCS(i-1,j),LCS(i,j-1));
分析方法同上
那么,终止条件是什么?
注意到i>0,j>0,所以终止条件就是 i==0 || j==0
代码如下:
反思与总结:
有时候应该打破惯性,打破我们惯常的以静制动的思维,
让两者都动,可能产生意想不到的好处。