Longest Common Subsequence

问题描述

LCS 的定义:

Longest Common Subsequence,最长公共子序列,即两个序列 X 和 Y 的公共子序列中,长度最长的那个,并且公共子序列不同于公共字串,公共子序列可以是不连续的,但是前后位置不变。

LCS 的意义:

求两个序列中最长的公共子序列的算法,广泛的应用在图形相似处理、媒体流的相似比较、计算生物学方面。生物学家常常用该算法进行基因序列比对,由此推测序列的结构、功能和演化过程。
LCS 可以描述两段文字之间的“相似度”,即他们的雷同程度,从而能够用来辨别抄袭。另一方面,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,这种方法半段修改的部分,往往十分准确。简而言之,百度知道、百度百科都用得上。

一、暴力求解:穷举法

  1. 假定字符串 X,Y 的长度分别为 m,n;
  2. X 的一个子序列下标序列为 {1,2,3,…,m},因此 X 共有 2 m 2^m 2m 个子序列;同理,Y 有 2 n 2^n 2n 个子序列。
  3. 从而穷举法需要指数时间: O ( 2 m ⋅ 2 n ) O(2^m\cdot 2^n) O(2m2n),显然不可取。

二、动态规划法

将大规模的问题转换为小规模的问题:
L C S ( X m , Y n ) = { L C S ( X m − 1 , Y n − 1 ) + x m , 当 x m = y n m a x { L C S ( X m − 1 , Y n ) , L C S ( X m , Y n − 1 ) } , 当 x m ≠ y n LCS(X_m,Y_n)= \begin{cases} \begin{aligned} LCS(X_{m-1},Y_{n-1})+x_m,\quad &当x_m = y_n\\ max\{LCS(X_{m-1},Y_{n}),LCS(X_m,Y_{n-1})\},\quad &当x_m \neq y_n \end{aligned} \end{cases} LCS(Xm,Yn)={LCS(Xm1,Yn1)+xm,max{LCS(Xm1,Yn),LCS(Xm,Yn1)},xm=ynxm̸=yn
其中 X m , Y n X_m,Y_n XmYn分别表示两个取自 X , Y X,Y XY的前缀序列, x m , y n x_m,y_n xmyn分别表示 X , Y X,Y X,Y中的第m和n个元素。
L C S ( X m , Y n ) LCS(X_m,Y_n) LCS(Xm,Yn)表示最长公共子序列。

算法思想:

  1. 创建二维数组 C [ m , n ] C[m,n] C[m,n]
    C [ i , j ] C[i,j] C[i,j] 记录序列 X i X_i Xi Y j Y_j Yj的最长公共子序列的长度。
    c ( i , j ) = { 0 , 当 i = 0 或 者 j = 0 c ( i − 1 , j − 1 ) + 1 , 当 i > 0 , j > 0 , 且 x i = y j m a x { c ( i − 1 , j ) , c ( i , j − 1 ) } , 当 i > 0 , j > 0 , 且 x i ≠ y j c(i, j) = \begin{cases} \begin{aligned} 0, \quad &当i=0或者j=0\\ c(i-1,j-1)+1, \quad &当i>0,j>0,且x_i = y_j\\ max\{c(i-1, j),c(i,j-1)\}, \quad &当i>0,j>0,且x_i\neq y_j \end{aligned} \end{cases} c(i,j)=0,c(i1,j1)+1,max{c(i1,j),c(i,j1)},i=0j=0i>0,j>0,xi=yji>0,j>0,xi̸=yj
  2. 创建二维数据 B [ m , n ] B[m,n] B[m,n](方向变量),其中, b [ i , j ] b[i,j] b[i,j] 标记 c [ i , j ] c[i,j] c[i,j] 的值是由哪一个子问题的解达到的。即 c [ i , j ] c[i,j] c[i,j] 是由 c [ i − 1 , j − 1 ] + 1 c[i-1,j-1]+1 c[i1,j1]+1 或者 c [ i − 1 , j ] c[i-1,j] c[i1,j] 或者 c [ i , j − 1 ] c[i,j-1] c[i,j1] 的哪一个得到的。取值范围为 Left,Top,LeftTop 三种情况。

在这里插入图片描述
在上述二维数据表中,数值即为 c [ i , j ] c[i,j] c[i,j],箭头即为方向变量 B 数组中的值{Left,Top,LeftTop}。

具体代码实现:

1. 先求出B数组和C数组:
在这里插入图片描述
2. 通过B数组去递归求解最长公共子序列
在这里插入图片描述

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 最长公共子序列(Longest Common Subsequence)指的是在两个序列中找到最长的公共子序列,这个公共子序列可以不连续,但是需要保持相对顺序不变。例如,对于序列ABCD和ACDFG,它们的最长公共子序列是ACD。 ### 回答2: 最长公共子序列(Longest Common Subsequence,简称LCS)是指在给定多个序列中,找到最长的一个子序列,该子序列同时出现在这些序列中,并且其他元素的相对顺序保持一致。 举个例子,假设有两个序列A和B,A为[1, 2, 3, 4, 5],B为[2, 4, 5, 6]。它们的一个最长公共子序列是[2, 4, 5],该子序列同时存在于A和B中。 求解LCS的问题可以用动态规划的方法来解决。我们可以构建一个二维数组dp,其中dp[i][j]表示序列A的前i个元素和序列B的前j个元素的LCS长度。那么dp[i][j]可以通过以下方式得到: 1. 如果A[i]等于B[j],则dp[i][j]等于dp[i-1][j-1] + 1; 2. 如果A[i]不等于B[j],则dp[i][j]等于max(dp[i-1][j], dp[i][j-1])。 通过填充整个dp数组,最终可以得到序列A和序列B的LCS长度。要找到具体的LCS序列,则可以通过反向遍历dp数组进行构建。 LCS问题在字符串处理、DNA序列匹配、版本控制等领域都有广泛的应用。其时间复杂度为O(m*n),其中m和n分别为序列A和序列B的长度。 ### 回答3: 最长公共子序列(Longest Common Subsequence)是一个经典的计算机科学问题。给定两个序列S和T,我们要找出它们之间最长的公共子序列。 子序列是从给定序列中按顺序选择几个元素而组成的序列。而公共子序列指的是同时是序列S和T的子序列的序列。 为了解决这个问题,可以使用动态规划的方法。我们可以定义一个二维数组dp,其中dp[i][j]表示序列S的前i个元素和序列T的前j个元素之间的最长公共子序列的长度。 接下来,我们可以使用以下递推关系来填充dp数组: 如果S[i]等于T[j],则dp[i][j] = dp[i-1][j-1] + 1; 如果S[i]不等于T[j],则dp[i][j] = max(dp[i-1][j], dp[i][j-1])。 最后,我们可以通过查看dp[S.length()][T.length()]来得到最长公共子序列的长度。 此外,我们也可以用回溯法来还原最长公共子序列本身。我们可以从dp[S.length()][T.length()]开始,如果S[i]等于T[j],则将S[i]添加到结果序列中,并向左上方移动,即i = i-1,j = j-1。如果S[i]不等于T[j],则根据dp数组的值选择向上(i = i-1)或向左(j = j-1)移动。 总之,最长公共子序列问题是一个经典的计算机科学问题,可以使用动态规划的方法解决。我们可以通过构建二维dp数组来计算最长公共子序列的长度,并可以使用回溯法来还原它本身。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值