Outline
0. ATAC-seq原理
0.1 染色体结构
0.2 原理
ATAC-seq通过Tn5转座酶来富集开放染色质区域的DNA序列,经PCR扩增后进行NGS测序。
0.3 结果
- ATAC的插入片段揭示了核小体的位置
- ATAC文库中,位于两个相邻核小体之间的序列,称之为nucleosome-free fragments, 简称NRF。这部分序列的peak可以用来表征TSS的位置
- ATAC在全基因组范围内捕获开放染色质区域的序列,可以识别细胞内正发挥调控功能的转录因子。
0.4 意义
1. ATAC-seq数据分析流程
1.1 上游分析
(1)序列质控和比对
- fastqc
- trim_golare
- bowtie2
mapping时要加上参数 --very-sensitive -X 2000
(2)序列筛选
- 去除线粒体基因和叶绿体基因
因为这些基因上没有组蛋白结合,不在研究范围内,而其存在会影响整体的分布
- 去除Encode上规定的blacklist区域
这些区域是已公布的信号异常区域,需要去除
- 去重
?? reads去重梳理1. 去除PCR重复和光学重复 2. 步骤 1. 标记重复的reads - MarkDuplicates 2. 去除重复的reads - bedtools - samtools
- 去除X、Y染色体区域
不研究性别的可以去除
(3)Shifting reads
- 原理
Tn5酶是以二聚体的形式结合到染色体上的,其跨度为9bp,需要回补这9bp的碱基差
- 步骤
- 正义链——正向移动4bp 反义链——反向移动5bp - alignmentSieve软件 - tips:不做reads shift对单碱基分辨率高的分析有影响,如TF motif footprinting
(4)Peaking calling
- 原理
Tn5在染色体上的结合为一个概率性的事件,需要利用统计检测来判断一个位置的reads是否足够成为一个peak
- 步骤
- 软件:macs - 设置peak标准 - p-value - 建模方式 - -nomodel --shift -75 --extsize 150
(5)峰文件bw的生成
(6)组间标准化
- 单个样本自身ATAC信号标准化
在并不是bam to bw 时,单个样本将自身ATAC信号进行RPKM标准化
- 多个样本时,组间标准化
- haystack中的haystack_hotspots - 输入bw文件
(7)上游处理后文件:bed、bw
- Bed文件
- 作用: - call peak 过后的峰位置文件 - 定义特定的峰区域 - 每行信息: - chrom、chromStart、chromEnd - 添加额外9列 - macs 进行call peak后的peak文件 - narrowPeak:就是峰的bed格式文件 - summit_bed: 峰的中心点 - ??bed文件格式
- bw文件
- 作用: - 方便可视化peak - 因为上游处理完的bam文件通常比较大,不方便快速展示,一般会将其转化为bw(bigwig) 或者wig文件,其中bigwig文件的显示性能较wig文件快,故bw更常用 - 相较于bed文件,bw文件不只提供了peak的位置,还有peak的高低
1.2 数据质控
指标
- 比对率
通常要求在95%以上,但80%也是可以接受的
- 插入片段长度统计
- 插入片段长度是评估实验好坏的指标 - 统计出的插入片段长度应该符合实验预期的长度
- FRiP(Fraction of reads in peaks)
- peaks中的reads与总reads的比例。 - 即文库中结合位点片段占背景reads的比例,可理解为'信噪比' - 也是样本富集效果的评价指标,可在一定程度上反应富集效果 - 通常要求大于0.3,大于0.2也可以接受
- 库的复杂度
- 与reads结合的独特性有关 - 参数 - NRF > 0.9 - PBC1 > 0.9 - PBC2 > 3
- 重复性鉴定
- bam文件的重复性
deeptools 的 plotCorrelation
- peak的重复性
IDR
- bam文件的重复性
1.3 下游分析
下游分析就是围绕bed和bw文件展开的
(1)TSS等位点的peak plot展示
- 想看的peak区域(bed文件)+ 特定样本(bw文件)
deeptools包中的两个命令 1. 构建矩阵:```computeMatrix``` 2. 展示:```plotHeatmap/plotProfile```
(2)Motif 分析
- 软件:homer中的
findMotifsGenome.pl
tips: 在输入前需将narrowPeak转变为特定格式的tmp文件再读入
(3)Peak对应的基因注释
- 将bed文件输入Great网站
tips: 1)bed文件需要加一列名字列,给每个peak一个名字 2)注意关注的peak对应的基因范围,看远端peak的话,TSS上游5kb,下游1kb
(4)Peak对应的区域注释
- 软件:homer中的
annotatePeaks.pl
- 输入目的区域的bed文件
(5)对Peak的操作
- 选取特定区域:bedtools——对peak取交集、并集等
1.4 进阶分析
(1)peak分类
- 按照两组样本之间的差异peak分类
- bam to count思路 - bedtools multicov + DESeq2
- 将peak进行promoter及enhancer分类
(2)PCA
主成分分析主要看样本分布的情况
- deeptools里面的
plotPCA
- 将bam转换成count,再用DESeq2做
(3)选定特定基因对应的区域画图
1. 先将基因分好类
- 组别在三者及以上时 ,采用差异基因的两两组合或者差异peak的两两组合,来实现peak的独特分类方式
2. 再找基因对应的peak区(Great来进行反向查看)
3. 画出对应peak的热图,以观察其有无ATAC信号不同的分布特点