ATAC-seq数据分析流程

小木亘

已于 2022-04-20 16:32:47 修改

阅读量9.6k

点赞数 9

分类专栏：测序文章标签：其他

于 2022-04-18 15:27:36 首次发布

本文链接：https://blog.csdn.net/weixin_57830892/article/details/124249922

版权

测序专栏收录该内容

3 篇文章 4 订阅

订阅专栏

0. ATAC-seq原理

0.1 染色体结构

0.2 原理

ATAC-seq通过Tn5转座酶来富集开放染色质区域的DNA序列，经PCR扩增后进行NGS测序。

0.3 结果

ATAC的插入片段揭示了核小体的位置
ATAC文库中，位于两个相邻核小体之间的序列，称之为nucleosome-free fragments, 简称NRF。这部分序列的peak可以用来表征TSS的位置
ATAC在全基因组范围内捕获开放染色质区域的序列，可以识别细胞内正发挥调控功能的转录因子。

0.4 意义

1. ATAC-seq数据分析流程

在这里插入图片描述

1.1 上游分析

（1）序列质控和比对

fastqc
trim_golare

bowtie2

mapping时要加上参数 --very-sensitive -X 2000

（2）序列筛选

去除线粒体基因和叶绿体基因

因为这些基因上没有组蛋白结合，不在研究范围内，而其存在会影响整体的分布

去除Encode上规定的blacklist区域

这些区域是已公布的信号异常区域，需要去除

去重
?? reads去重梳理

1. 去除PCR重复和光学重复
2. 步骤
	1. 标记重复的reads
	    - MarkDuplicates
	2. 去除重复的reads
	    - bedtools 
	    - samtools

去除X、Y染色体区域
```
不研究性别的可以去除
```

（3）Shifting reads

原理

Tn5酶是以二聚体的形式结合到染色体上的，其跨度为9bp，需要回补这9bp的碱基差

步骤

- 正义链——正向移动4bp
  反义链——反向移动5bp
- alignmentSieve软件
- tips：不做reads shift对单碱基分辨率高的分析有影响，如TF motif footprinting

（4）Peaking calling

原理

Tn5在染色体上的结合为一个概率性的事件，需要利用统计检测来判断一个位置的reads是否足够成为一个peak

步骤

- 软件：macs 
-  设置peak标准
	- p-value
	- 建模方式
	- -nomodel --shift -75 --extsize 150

（5）峰文件bw的生成

（6）组间标准化

单个样本自身ATAC信号标准化

在并不是bam to bw 时，单个样本将自身ATAC信号进行RPKM标准化

多个样本时，组间标准化

- haystack中的haystack_hotspots
	- 输入bw文件

（7）上游处理后文件：bed、bw

Bed文件

- 作用：
	- call peak 过后的峰位置文件
	- 定义特定的峰区域
- 每行信息：
	- chrom、chromStart、chromEnd 	
	- 添加额外9列
-  macs 进行call peak后的peak文件
	- narrowPeak：就是峰的bed格式文件
	- summit_bed: 峰的中心点
- ？？bed文件格式

bw文件

- 作用：
	- 方便可视化peak
		- 因为上游处理完的bam文件通常比较大，不方便快速展示，一般会将其转化为bw(bigwig)
		  或者wig文件，其中bigwig文件的显示性能较wig文件快，故bw更常用
	  - 相较于bed文件，bw文件不只提供了peak的位置，还有peak的高低

1.2 数据质控

指标

比对率

通常要求在95%以上，但80%也是可以接受的

插入片段长度统计

- 插入片段长度是评估实验好坏的指标
- 统计出的插入片段长度应该符合实验预期的长度

FRiP(Fraction of reads in peaks)

- peaks中的reads与总reads的比例。
	- 即文库中结合位点片段占背景reads的比例，可理解为'信噪比'
	- 也是样本富集效果的评价指标，可在一定程度上反应富集效果
	- 通常要求大于0.3，大于0.2也可以接受

库的复杂度

- 与reads结合的独特性有关
- 参数
	- NRF > 0.9
	- PBC1 > 0.9
	- PBC2 > 3

重复性鉴定
1. bam文件的重复性
```
deeptools 的 plotCorrelation
```
2. peak的重复性
```
IDR
```

1.3 下游分析

下游分析就是围绕bed和bw文件展开的

（1）TSS等位点的peak plot展示

想看的peak区域（bed文件）+ 特定样本（bw文件）

deeptools包中的两个命令
	  1. 构建矩阵：```computeMatrix```
	  2. 展示：```plotHeatmap/plotProfile```

（2）Motif 分析

软件：homer中的findMotifsGenome.pl

tips: 在输入前需将narrowPeak转变为特定格式的tmp文件再读入

（3）Peak对应的基因注释

将bed文件输入Great网站

 tips：
 1）bed文件需要加一列名字列，给每个peak一个名字
 2）注意关注的peak对应的基因范围，看远端peak的话，TSS上游5kb，下游1kb

（4）Peak对应的区域注释

软件：homer中的annotatePeaks.pl
输入目的区域的bed文件

（5）对Peak的操作

选取特定区域：bedtools——对peak取交集、并集等

1.4 进阶分析

（1）peak分类

按照两组样本之间的差异peak分类

- bam to count思路
	- bedtools multicov + DESeq2

将peak进行promoter及enhancer分类

（2）PCA

主成分分析主要看样本分布的情况

deeptools里面的plotPCA
将bam转换成count，再用DESeq2做

（3）选定特定基因对应的区域画图

1. 先将基因分好类
	- 组别在三者及以上时 ，采用差异基因的两两组合或者差异peak的两两组合，来实现peak的独特分类方式
2. 再找基因对应的peak区（Great来进行反向查看）
3. 画出对应peak的热图，以观察其有无ATAC信号不同的分布特点

Reference：

ATAC-seq汇总

小木亘

关注

9
点赞
踩
73

收藏

觉得还不错? 一键收藏
3
评论
ATAC-seq数据分析流程

Outline0. ATAC-seq原理0.1 染色体结构0.2 原理0.3 结果0.4 意义1. ATAC-seq数据分析流程1.1 上游分析（1）序列质控和比对（2）序列筛选1.2 下游分析1.3 进阶分析0. ATAC-seq原理0.1 染色体结构0.2 原理0.3 结果0.4 意义1. ATAC-seq数据分析流程1.1 上游分析（1）序列质控和比对fastqctrim_golarebowtie2mapping时要加上参数 --very-sensitive -X 2000
复制链接

扫一扫