ChIP-seq 数据分析1 ChIP-Seq技术2 ChIP-Seq数据分析

最新推荐文章于 2024-06-19 18:13:56 发布

wx1871428

最新推荐文章于 2024-06-19 18:13:56 发布

阅读量3.3k

点赞数 2

分类专栏：数据分析

本文链接：https://blog.csdn.net/wx1871428/article/details/118570881

版权

本文介绍了ChIP-Seq技术，包括其概念和原理，并详细阐述了ChIP-Seq数据分析过程，如数据下载、质量控制、比对、搜峰和峰注释。重点讨论了MACS2和ChIPseeker在峰呼叫和注释中的应用，并提到了相关表观遗传学技术如DNA甲基化和ATAC-Seq。

摘要由CSDN通过智能技术生成

1 ChIP-Seq技术
- 1.1 概念
- 1.2 ChIP-seq技术原理
2 ChIP-Seq数据分析
- 2.1 数据下载
- 2.2 质量控制（data_assess）
- 2.3 比对到参考基因组（mapping_analysis）
- 2.4 搜峰（Peak_calling）
  - MACS2
    - 2.4.1 MACS2 核心: callpeak 用法
    - 2.4.2 callpeak 结果文件说明
    - 2.4.3 bdg file → wig file
- 2.5 峰注释（Peak_anno）
  - ChIPseeker

ChIP-Seq仅仅是第一个表观遗传学领域比较成熟的技术而已，目前还有很多其他的技术，比如说

DNA修饰: DNA甲基化免疫共沉淀技术（MeDIP), 目标区域甲基化，全基因组甲基化（WGBS)，氧化-重亚硫酸盐测序（oxBS-Seq),
TET辅助重亚硫酸盐测序（TAB-Seq）

RNA修饰: RNA甲基化免疫共沉淀技术（MeRIP)

蛋白质与核酸相互作用： RIP-Seq, ChIP-Seq, CLIP-Seq

还有最近比较火的 ATAC-Seq ATAC-seq 能干啥？(
http://www.biotrainee.com/thread-1218-1-1.html
)

1 ChIP-Seq技术

1.1 概念

染色质免疫共沉淀技术 （Chromatin Immunoprecipitation， ChIP
）也称结合位点分析法，研究体内蛋白质与DNA相互作用的一种方法，通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。
将 ChIP 与 第二代测序技术 相结合的 ChIP-seq技术
，能高效的在全基因组范围内检测与组蛋白、转录因子等互作的DNA片段。

1.2 ChIP-seq技术原理

在生理状态下，把细胞内的DNA与蛋白质交联（Crosslink）后裂解细胞，分离染色体，通过超声或酶处理将染色质随机切割；
利用抗原抗体的特异性识别反应，将与目的蛋白相结合的DNA片段沉淀下来；
再通过反交联（Reverse crosslink）释放结合蛋白的DNA片段；
纯化；
测序获得DNA片段的序列，最后将这些DNA片段比对到对应的参考基因组上。
![这里写图片描述](https://img-
blog.csdn.net/20180814104707287?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTc0NTg1OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

2 ChIP-Seq数据分析

2.1 数据下载

GSE98149 （包含H3K9me3的全部阶段，H3K4me3和H3K27me3的zygote、E6.5 Epi、E6.5 Exe、E7.5
Epi、E7.5 Exe、E8.5 embryo、Esc）
Title：Reprogramming of H3K9me3-dependent heterochromatin during mammalian
early embryo development [ChIP-seq]
Organism：Mus musculus

    for ((i=594;i<=670;i++));
    do
    wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP105/SRP105176/SRR5479$i/SRR5479$i.sra;
    done &
[/code]

```code
    # sratookit： .sra 文件 → fastq文件
    ls *sra |while read id;
    do
    /home/chen/sratoolkit.2.8.2-ubuntu64/bin/fastq-dump --gzip --split-3 $id;
    done &

    # 下载小鼠参考基因组的 index
    wget -c "ftp://ftp.ccb.jhu.edu/pub/data/bowtie2_indexes/mm10.zip" &
    
    # 解压
    unzip mm10.zip &
[/code]

##  2.2 质量控制（data_assess）

```code
    # Fastqc 进行质控
    ls *fq | while read id; do fastqc -t 4 $id; done &
    
    # multiqc：质控结果批量查看
    multiqc *fastqc.zip --export &
[/code]

```code
    ## trimmomatic 
    
    # 安装 trimmomatic
    wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip &
    unzip Trimmomatic-0.38.zip
    
    # 数据清理
    # -threads 设置多线程运行
    java -jar "/data/chen/biosoft/Trimmomatic-0.38/trimmomatic-0.38.jar" PE -threads 2 -phred33 \
    
    # 2个输入文件
    ${name}_1.fq.gz ${name}_2.trim.fq.gz \
    
    # 4个输出文件
    ${name}_R1.clean.fq.gz ${name}_R1.unpaired.fq.gz \
    ${name}_R2.clean.fq.gz ${name}_R2.unpaired.fq.gz \
    
    # ILLUMINACLIP:去接头
    # "$adapter"/Exome.fa ：adapter 序列的 fasta 文件
    # 2：16 个碱基长度的种子序列中可以有 2 个错配
    # 30：采用回文模式时匹配得分至少为30 (约50个碱基)
    # 10：采用简单模式时匹配得分至少为10 (约17个碱基)
    ILLUMINACLIP:"$adapter"/Exome.fa:2:30:10 \
    
    # LEADING:3，从序列的开头开始去掉质量值小于 3 的碱基；
    # TRAILING:3，从序列的末尾开始去掉质量值小于 3 的碱基；
    # SLIDINGWINDOW:4:15，从 5' 端开始以 4 bp 的窗口计算碱基平均质量，
    # 如果此平均值低于 15，则从这个位置截断 read；
    # HEADCROP:<length> 在reads的首端切除指定的长度；
    # MINLEN:36， 如果 reads 长度小于 36 bp 则扔掉整条 read。
    LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 HEADCROP:10 MINLEN:36
[/code]

![这里写图片描述](https://img-
blog.csdn.net/20180904092004409?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTc0NTg1OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)  
![这里写图片描述](https://img-
blog.csdn.net/20180904092011835?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTc0NTg1OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

##  2.3 比对到参考基因组（mapping_analysis）

Bowtie2 或 BWA

```code
    # bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r>} -S [<hit>]
    
    # -p/--threads NTHREADS 设置线程数. Default: 1
    # -q reads 是 fastq 格式的
    # -x <bt2-idx> index 路径
    # -1 <m1> 双末端测序的 _1.fastq 路径。可以为多个文件，并用逗号分开&#