（一）Dynamic Programming

Yuyang__@

已于 2024-09-09 13:45:11 修改

阅读量915

点赞数 30

分类专栏： MIT基因组和机器学习课程笔记文章标签：数据结构

于 2024-03-25 22:11:12 首次发布

本文链接：https://blog.csdn.net/weixin_61365716/article/details/136988711

版权

MIT基因组和机器学习课程笔记专栏收录该内容

1 篇文章 1 订阅

订阅专栏

课件地址：https://stellar.mit.edu/S/course/6/fa20/6.047/courseMaterial/topics/topic2/lectureNotes/Lecture02_DynamicProgramming/Lecture02_DynamicProgramming.pdf

提纲

背景

通过比较基因组学研究，人们如何鉴定出在不同物种中保守的基因区域

基因组位置和保守性图: 顶部是人类染色体9q34.2位置的示意图，显示了DBH（多巴胺β-羟化酶）基因区域。数字1至12表示可能的外显子或重要的区域。黑色垂直条形图显示了基因区域的保守性，保守性越高的区域表示在不同物种中变化较少，意味着这些区域可能在功能上非常重要。从上到下列出了多种物种：狗、老鼠、大鼠、鸡、河豚鱼和斑马鱼的保守性对比。
比较基因组学的发现:
- 外显子（exons）在多种物种（例如老鼠、鸡、鱼）中高度保守。
- 许多其他元素也可能强烈保守，作者提出了外显子或调控元件的可能性。
估计约束水平的方法开发:
- 计算编辑操作的数量，替换和间隙的数量：这是通过比较两个或多个物种的DNA序列来实现的。编辑操作包括插入、删除和替换，这些都是使一个序列变成另一个序列所需的变化。计数结果可以用来估计序列的保守性——操作越少，说明保守性越高。
- “替换”是指一个核苷酸被另一个核苷酸取代，“间隙”是指序列中的插入或删除
- 估计突变的数量（包括背突变的估计）：突变数量的估计是对基因组区域随时间发生变化的频率的衡量。背突变指的是反向突变，即一个已经发生的突变再次发生逆转变回原来的状态。估计这些可以帮助了解基因或基因区域的稳定性和保守性。
- 结合邻域信息：保守“窗口”：这个方法考虑了基因或基因区域周围的序列信息。保守窗口是指在基因组中相对保守的连续区域，意味着这个区域在不同物种中变化不大，因此可能有重要的生物学功能。
- 估计受限的“隐藏状态”的概率：这通常涉及到隐马尔可夫模型（Hidden Markov Models, HMMs）。在基因组序列分析中，隐藏状态可以代表不同的生物学功能，如编码蛋白质的区域（外显子）、调控区域等。HMM可以用来预测这些隐藏状态的存在，及其在基因组中的分布。

展示了通过基因序列比对可以看到在进化过程中保留下来的功能性元素

不同物种的基因序列比对: 展示了几种酵母（Saccharomyces cerevisiae, Saccharomyces paradoxus, Saccharomyces mikatae, 和 Saccharomyces bayanus）之间基因序列的比对。基因序列比对有助于识别在进化过程中保守的区域，这通常意味着这些区域在生物学上具有重要的功能。
功能性基因元素的示例:
- Gal4和Gal10基因间区域的一段序列。Gal4是一种已知的转录因子，它能够结合到DNA上的特定序列以调控下游基因的表达。在这里，Gal4结合位点在多个物种中被保守下来，表明其功能的重要性。
- TBP（TATA框绑定蛋白）和MIG1的保守序列。TBP是一种普遍存在的转录因子，对启动基因转录至关重要。MIG1是另一个转录调控因子。
保守区域的注释:
- Factor footprint：指的是转录因子结合位点的DNA序列，这些位点通过进化被保守下来，表明其在基因表达调控中的作用。
- Conservation island：指的是在不同物种间高度保守的序列区域，表明这些区域可能包含重要的生物学功能。
使用序列比对解码功能性元素: 幻灯片指出通过使用这些比对信息，研究人员可以实际解码功能性元素。它引用了三项研究（酵母、哺乳动物和果蝇），这些研究显示了如何通过比较基因组学来识别重要的生物学结构和功能。
举例
幻灯片上标记为“GAL4”的区域表示转录因子Gal4的结合位点，这就是所谓的“Factor footprint”。在基因组中，转录因子结合位点是转录调控的关键区域，它们是蛋白质（在这个例子中是Gal4）结合到DNA上的具体序列，调控相邻基因的表达。

在这张幻灯片中，Gal4的结合位点被显示为在不同的酵母物种间高度保守的序列，这表明这一序列在维持基本生物学过程中的重要性。它们的进化上的保守性强调了其功能上的重要性，因为在物种间保持不变的DNA序列通常涉及对生存至关重要的生物学功能。因此，在比较基因组学中识别出这样的“Factor footprint”对于理解基因如何被调控，以及基因调控网络是如何在不同物种中保持稳定的有着重要的意义。

TBP（TATA框绑定蛋白）是一个非常重要的转录因子，它识别和结合到称为TATA框的DNA 序列，并是形成复杂的转录启动复合物的初始步骤。MIG1也是一种转录因子，它在酵母中调节与糖代谢相关的基因表达。

因此，是的，TBP和MIG1都是转录因子的例子。在幻灯片上，它们的结合位点被标记为高度保守的区域，这表明这些位点在多个酵母物种中都有重要的功能，并且在进化过程中得到了保留。

补充转录相关的知识

1.转录的启动：转录因子识别和结合到特定的DNA序列，这些序列通常位于基因的启动子区域。对于许多基因来说，这个区域包括一个称为TATA盒的特定序列，这是TBP结合的位置。
2.形成转录复合体：转录因子绑定后，会帮助招募其他蛋白质和转录相关因子，包括RNA聚合酶，到启动子。这个复合体组合在一起，形成了一个能够开始转录过程的大的蛋白质-DNA复合体。
3.RNA的合成：一旦转录启动复合物形成，RNA聚合酶就会开始沿着DNA模板合成相应的RNA分子。这个过程中，DNA的一个链被用作模板，合成一条互补的RNA分子。
4.转录后加工：初级转录产物（前体mRNA或pre-mRNA）可能会经过剪接、加帽和加尾等一系列转录后加工步骤，变成成熟的mRNA。
5.翻译：成熟的mRNA会被运输到细胞质中，在那里它们被核糖体翻译成蛋白质。这是一个将RNA上的遗传信息转换成蛋白质序列的过程。

基因组随复制的时候变化，引入问题，如果我们只知道begin和end,我们如何推断中间发生了什么，引入

定义进化操作集:
- 包括插入、删除和突变这样的操作。
- 这些操作是对称的，允许时间可逆性，这是设计选择的一部分。
- 例外情况是甲基化的CpG双核苷酸，其变为TpG/CpA后不对称。
  在生物信息学和计算生物学中，考虑进化操作（如插入、删除、突变）的对称性意味着这些操作可以在时间上向前或向后进行，且操作的“成本”或“步骤”是相同的。例如，如果一个碱基在人类基因组中被插入，从计算模型的角度来看，删除这个碱基的成本（在模型中倒退这个操作）应该是相同的。这样的对称性允许建模操作在进化树上任意方向上的变化，这是为了简化计算模型而做的设计选择。
  
  至于甲基化的CpG双核苷酸不对称的例外情况，CpG指的是DNA序列中胞嘧啶（C）后面跟着鸟嘌呤（G）的一个双核苷酸对。在基因组中，CpG位点可能会发生甲基化，即一个甲基（CH3）被加到胞嘧啶上。这种甲基化的CpG有时在细胞复制过程中，由于DNA修复机制的不完全，会被错误地转换为TpG或CpA（其中T代表胸腺嘧啶）。这个转换过程是不对称的，因为一旦CpG变为TpG/CpA，胞嘧啶的甲基化就丢失了，原始的CpG状态不会自然恢复，因此，这个转换在进化操作中是单向的，不可逆的。
  
  在建模基因组进化时，考虑这种不对称性很重要，因为它影响到我们理解基因组变化的方式，以及如何计算这些变化的“成本”。这意味着甲基化CpG位点的突变在模型中有一个特定的方向和不同的成本，与其他类型的突变相比是非对称的。
定义最优性准则:
- 最小化操作数量或成本。
- 不可能推断出操作的确切序列（使用奥卡姆剃刀原理寻找最少的解释）。
设计实现最优性的算法:
- 解决方案的可行性取决于公式化中的假设。
- 存在多种可能的转换。
- 最小成本的转换是最优解。
在生物学和计算科学之间的权衡:
- 生物学的相关性、可预测性和正确性与计算科学的假设、可实施性和可计算性之间存在权衡。
- 特殊情况可能需要特殊处理。
注意点:
- 并非所有决策都是冲突的（例如，一些决策既相关又可实施）。
- 引用了Pevzner与Sankoff以及直接在染色体尺度上的功能性的研究。

开始讲算法思想

主要内容包括：

比对策略:
- 允许间隙（gap），这些间隙有固定的罚分。
- 插入和删除操作。
编辑操作的不同罚分:
- 变换（transitions）：嘧啶之间或嘌呤之间的互变，较常见，因此罚分较低。
- 颠换（transversions）：嘌呤和嘧啶之间的互变，较不常见，罚分较高。
- DNA聚合酶容易混淆A与G和C与T。
评分函数:
- 匹配（match）得分+1。
- 不匹配（mismatch）A与G、C与T得分-1/2（较轻的罚分，因为这属于变换，较为常见）。
- 不匹配A与C、A与T、G与C、G与T得分-1（更重的罚分，因为这属于颠换，不太常见）。
变换与颠换:
- 变换：A↔G和C↔T的变化，由于较常见，因此罚分较低。
- 颠换：其他所有碱基替换操作。

在序列比对中，选择合适的评分系统是关键的，因为它能影响比对的结果。这个评分系统基于突变在进化过程中发生的可能性：变换比颠换发生得更频繁，所以变换的罚分更低。这样的评分方法可以帮助研究人员识别和解释DNA序列之间的相似性和差异，从而推断它们的进化关系。

在这张幻灯片上，解释了在序列比对中如何模型化间隙（gap）的成本，这是为了评价序列间的相似性时，引入或删除一个或多个碱基的罚分。这个概念是基因序列分析中的一个关键方面，尤其是在进行基因或蛋白质比对时。幻灯片介绍了不同的间隙成本模型：

线性间隙罚分（Linear gap penalty）:
- 和前面讨论的一样，每插入或删除一个字符都有一个固定的成本。
仿射间隙罚分（Affine gap penalty）:
- 开始或结束一个间隙有一个较大的初始成本。
- 对于每个额外添加的字符有一个较小的增量成本。
通用间隙罚分（General gap penalty）:
- 可以使用任何成本函数。
- 使用相同模型时，可能不再可计算。
帧感知间隙罚分（Frame-aware gap penalty）:
- 3的倍数的间隙会破坏编码区域。这指的是在编码蛋白质的基因中，插入或删除非3的倍数的碱基会导致移码突变，进而影响蛋白质的结构和功能。
寻找重复区域、重排等（Seek duplicated regions, rearrangements, ...）:
- 暗示在进行序列比对时，应考虑基因组中可能发生的重复区域和重排事件。

幻灯片强调了在分子生物学和进化生物学中对序列进行比对时，正确选择间隙罚分模型的重要性。这些模型帮助科学家们推断出两个或多个序列之间可能的进化关系，并解释它们的功能差异。

根据斐波那契数列的思想提出的算法逻辑，全局最佳得分来源于子最佳得分

这张图展示了动态规划在序列比对中的一个实例，其中使用了一个得分矩阵 M[i, j] 来存储两个序列 S1 和 S2 之间所有可能比对的最大得分。每个矩阵的条目 M[i, j] 对应于 S1 的前 i 个字符与 S2 的前 j 个字符之间的最佳比对得分。以下是图中信息的解释：

比对选项:
- 展示了三种比对序列 S1 和 S2 的方法，每种方法对应不同的比对策略，如在两个序列之间扩展匹配，或在一个序列中插入间隙。
矩阵 M[i, j]:
- 此矩阵用于存储不同序列前缀之间的最优比对得分。矩阵中的每个单元格都包含了一个得分，这个得分是基于给定比对规则和评分系统的。
矩阵路径与序列比对:
- 图中的路径示例显示了如何通过矩阵找到两个序列之间的最佳比对路径。这个路径表明了序列 S1 的某些字符与序列 S2 的字符如何对齐，包括在哪些位置插入间隙。
最佳路径的目标:
- 目标是在矩阵中找到从左上角（代表序列起始）到右下角（代表序列结束）的最佳路径。这条路径反映了序列 S1 和 S2 之间的最佳比对。
路径示例:
- 矩阵下方的路径示例显示了矩阵中如何表示插入间隙（红色三角形标记的位置）和匹配/错配（绿色和红色方框标记的位置）。

总体来说，这张图解释了在序列比对中如何使用动态规划方法来计算最佳比对得分，并通过矩阵来跟踪比对过程中的每一步，包括匹配、错配和插入间隙的位置。通过矩阵，我们可以重构出两个序列之间的最佳比对。

主要步骤：

初始化矩阵:
- 矩阵的初始化通常从零开始，左上角的单元格代表两个序列之间还未进行任何比对时的得分。
填充矩阵:
- 用给定的替代矩阵（Substitution matrix）和间隙罚分（Gap penalty）来填充得分矩阵。在这个例子中，如果两个相同位置的字符相同（ai=bjai=bj），则得分为 +3；如果不同，则得分为 -3。间隙的罚分是线性的，每个间隙的得分是乘以一个权重 Wk 的 W1（在这里是2）。
- 红色箭头代表计算当前单元格得分时考虑的三个方向：从左侧（表示序列1中插入间隙）、从上方（表示序列2中插入间隙）和从左上方（表示匹配或错配）。
找到最大得分:
- 矩阵填充完毕后，右下角的单元格显示了两个序列间可能的最大得分。
回溯:
- 为了建立两个序列之间的最佳比对，从矩阵的右下角开始回溯。蓝色箭头显示了回溯路径，它指示如何从一个给定的单元格移动到前一个单元格，这一路径决定了如何构建序列比对。
- 通过这种方式，可以确定序列1和序列2之间的对齐方式，包括在哪里插入间隙，以及哪些字符是匹配或错配。
返回最佳比对:
- 最终的比对结果显示在左下角，其中Sequence 1 和 Sequence 2 已经按照回溯过程对齐，间隙用短横线（-）表示。