【Regulatory Genomics】Part1基因调控的生物学基础、motifs与测序技术

ManolisKellis教授的课程介绍了基因调控的基础,包括DNA甲基化、组蛋白修饰的作用机制和功能,以及关键的实验技术如CHIP-seq、DNase-seq和ATAC-seq,这些技术用于揭示基因表达调控的细节。

来自Manolis Kellis教授(MIT计算生物学主任)的课
油管链接:Regulatory Genomics - Deep Learning in Life Sciences - Lecture 07 (Spring 2021)
本节课分为三个部分,本篇笔记是第一部分。
本节探讨基因调控的生物学基础、DNA motifs以及用于探测基因调控的关键技术(CHIP-seq、DNase-seq以及ATAC-seq)。主要是为后面的内容打下基础,为深度学习所用的数据进行说明

  • 课程大纲

Biological foundations of gene regulation

  1. DNA甲基化:

    • 原因: DNA甲基化是直接作用于DNA分子的一种修饰。当某些胞嘧啶(C)位点被添加上一个甲基团时,它们就被称为被甲基化了。
    • 机制: DNA甲基化通常会导致基因的沉默,因为这种修饰阻止了转录因子和其他蛋白质与DNA结合。此外,甲基化的DNA会吸引某些蛋白质(如甲基化DNA结合蛋白),这些蛋白质可以进一步改变染色质的结构,使其更为紧凑。
    • 功能: DNA甲基化在许多生物过程中起到关键作用,如基因沉默、X染色体失活、创伤应激反应和癌症。
  2. 组蛋白修饰:

    • 原因: 组蛋白修饰是在组蛋白的特定氨基酸残基上发生的化学变化。例如,赖氨酸上可以添加甲基、乙酰或磷酸化团等。
    • 机制: 组蛋白修饰可以改变染色质的紧凑度,从而影响DNA的可及性。例如,某些组蛋白修饰可以使染色质更为放松,促进基因的表达,而其他修饰则导致染色质更为紧凑,抑制基因的表达。
    • 功能: 组蛋白修饰在基因表达调控、DNA损伤修复、细胞周期调控等多种过程中都发挥着重要作用。

在使用ChromHMM或类似的方法进行染色质状态分析时,染色质状态被视为隐藏状态,而实际的表观遗传标记(例如组蛋白修饰)被视为观察到的数据。

隐马尔可夫模型(HMM)的工作方式是,基于观察到的数据(在这里是各种表观遗传标记)来推断最有可能的隐藏状态序列(在这里是染色质状态)。因为染色质状态本身不能直接测量,所以需要通过这种统计方法来推断它。

例如,如果一个基因区域有H3K4me3和H3K27ac的组蛋白修饰,但没有H3K27me3,那么HMM可能会推断这个区域是一个活跃的启动子。这种推断是基于已知的关于这些修饰与基因活性之间的关系。

DNA motifs

  1. DNA结合结构域:这是转录因子中的一个区域,能够特异性地与DNA中的特定序列结合。
  2. 识别特定序列:展示了三种不同的转录因子(TF1、TF2和TF3)如何识别和结合到特定的DNA序列上。例如,TF1与TAATTA序列结合,TF2与CACGTG结合,而TF3与AGATAAGA结合。

  1. 蛋白质“感觉”DNA

    • 蛋白质可以“读取”DNA碱基的化学特性。
    • 蛋白质并不打开DNA(不需要碱基互补性来与DNA结合)。
  2. 3D拓扑结构决定特异性

    • 完全受限位置:在这里,每一个原子的位置都很关键。这意味着蛋白质与DNA的结合是非常精确的,每一个原子的位置都有其特定的功能。
    • “模糊/退化”位置:这些位置的接触是松散的,不需要完全匹配。这意味着在这些位置,蛋白质与DNA的结合有一定的灵活性。
  3. 其他类型的识别

    • MicroRNAs:这是一种小的非编码RNA,其识别原理是基于碱基的互补性。
    • 核小体:它们的识别与GC含量有关。GC含量是指DNA序列中鸟嘌呤(G)和胞嘧啶(C)的百分比。某些核小体更倾向于与GC含量较高的区域结合。
    • RNA结构和组合:这里提到RNA的结构和组合也可以影响与其他分子的识别和结合。

Technologies for probing gene regulation

CHIP-seq

b站视频

ChIP-seq(染色质免疫沉淀后续测序),这是一种用于确定DNA中某特定蛋白质(例如转录因子或组蛋白修饰)绑定位置的技术。

  1. 样本制备:首先,细胞内的DNA和与其结合的蛋白质通过形式化物固定,这样可以保持其相互作用。

  2. Lysing/Sonication:细胞裂解,随后通过超声波破碎DNA,形成较小的片段。

  3. Immunoprecipitation (IP):使用特定的抗体来沉淀目标蛋白质及其结合的DNA。这里展示了与非组蛋白结合(Non-histone ChIP)和与组蛋白结合(Histone ChIP)的情况。

  4. DNA提纯:将绑定的DNA从蛋白质中分离出来。

  5. End Repair & Adaptor Ligation:修复DNA的末端并连接一个适配器,以便于下一步的扩增。

  6. PolyA tailing:添加PolyA尾,有助于下一步的测序。

  7. 扩增和测序

    • Amplification on beads (emulsion PCR):在微珠上进行扩增,使得每个珠子上只有一个DNA模板。
    • Cluster generation (bridge PCR):在Illumina测序平台上,形成簇或集群,每个簇由同一个模板扩增的多个DNA片段组成。
    • 下面部分展示了不同的测序技术,包括Illumina、Roche Pyrosequencing、ABI以及Helicos等。
  8. Bar-coded multiplexed sequencing:使用带有不同条形码的适配器,使得多个样本可以在同一个通道上进行测序,之后再通过条形码进行区分。

  9. 数据分析:最后,得到的测序读数被解析并分析,以确定目标蛋白质在基因组中的结合位置。图中展示了四种不同的蛋白质(Input, Pol II, Ste12, Cse4)的结合位置,这可以帮助研究者了解这些蛋白质如何调控基因的表达。

DNase-seq

DNase-seq是一种用于鉴定基因组中开放染色质区域的技术。开放染色质区域通常与基因的转录活性相关,并可能包含转录因子结合位点。

以下是DNase-seq的主要步骤:

  1. 染色质状态:在最上方,我们看到了细胞核中的染色质。染色质由DNA和与之关联的蛋白质(例如组蛋白)组成。在这里,染色质中的某些区域(由黄色线表示)是开放的,而其他区域是紧密结合的。

  2. DNase-I消化:将细胞暴露于DNA酶I (DNase-I) 下。DNase-I是一种可以切割双链DNA的酶,特别在开放的染色质区域活跃。消化的程度取决于DNase-I的浓度和暴露时间。

  3. 收集DNA:经DNase-I处理后的DNA片段被收集起来。然后,通过大小选择方法,通常选择长度在100-300bp之间的DNA片段。

  4. 测序:收集的DNA片段被进行高通量测序,如图中所示。这可以产生大量(例如,60-100M)的测序读数。

  5. DNase-seq读数计数:最终,测序读数被映射回参考基因组。这生成了一个图谱,表示开放染色质区域的位置和强度。在这里,高的峰代表了高度开放的染色质区域,可能是转录因子结合位点或其他调控元件。

ATAC-seq

测序测定染色质可及性

ATAC-seq是一种用于鉴定基因组中开放染色质区域的技术,它能够快速、高效地为细胞提供转录调控信息。

以下是ATAC-seq的主要步骤:

  1. 染色质状态:左边表示紧密打包的、转录非活跃的染色质。右边表示松散打包的、转录活跃的染色质。后者的染色质区域更为“开放”,更易于转录因子和其他蛋白质访问。

  2. 超活跃转座酶:使用超活跃的转座酶结合适配器DNA对细胞进行处理。转座酶能够同时对DNA进行断裂和标记。

  3. 同时的DNA断裂和标记:在松散打包的、转录活跃的染色质中,超活跃的转座酶将适配器DNA插入到开放的染色质区域。

  4. 纯化和PCR扩增:然后从细胞中纯化出已标记的DNA片段,并使用与适配器序列相对应的标签进行PCR扩增。

  5. 下一代测序:利用下一代测序技术对扩增的DNA片段进行测序。得到的测序读数反映了细胞中开放染色质的位置。

  6. ATAC-Seq峰值:最终,使用测序数据在基因组上鉴定开放染色质的区域。这些区域在图上显示为“峰值”,每个峰代表一个开放染色质的位置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丸丸丸子w

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值