强烈推荐！Encode官方的ATAC数据分析流程

最新推荐文章于 2024-07-27 17:40:25 发布

生信修炼手册

最新推荐文章于 2024-07-27 17:40:25 发布

阅读量2.3k

点赞数 5

本文链接：https://blog.csdn.net/weixin_43569478/article/details/108079779

版权

本文介绍了Encode官方的ATAC-seq数据分析pipeline，包括从fastq到peak calling的详细步骤，强调了其对生物学重复和无生物学重复数据的支持，以及采用IDR评估peak可重复性的亮点。流程基于WDL，易于部署，但缺乏详细文档，适合有一定编程基础的使用者。

摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

Encode不仅共享了大量的组学数据，还开源了自己的数据分析pipeline, ATAC的pipeline网址如下

https://github.com/ENCODE-DCC/atac-seq-pipeline

提供了从原始的fastq数据开到，到peak caling结束的基础分析功能，尽管缺少了下游的差异分析和motfi分析，这套流程依然值得推荐。

该流程同时支持有生物学重复和无生物学重复两种情况，对于有生物学重复的数据，分析的流程图如下

对于没有生物学重复的数据，流程图如下

从fastq到peak calling, 只需通过trim, mapping, peak calling三部曲即可，其他流程中可能就是3个步骤对应的软件跑一下，在Encode的这套流程中添加了更多的细节分析。

首先来看下基本的三部曲，通过cutadapt软件去除adapter和低质量序列，然后是bowitie2比对参考基因组，最后调用MACS2进行peak calling。

对于比对产生的原始bam文件，采用了samtools和picard去除PCR重复序列，然后利用bedtools转换为TagAlign格式，在转换的过程中去除了线粒体的序列，然后进行shift操作，最后输入到macs2软件中，这个过程称之为post-alignment，每一步过滤的reads都进行了详细统计，还计算了NRF, PBC1等文库复杂度指标，同时提供了TSS Enrichment score，和TSS两侧reads分布图，插入片段插入分布图等可视化结果。

peak calling部分，称得上是该流程最大的亮点，采用了IDR软件来评估peak的可重复性。对于有生物学重复的样本，先对每个生物学重复进行peak calling, 然后进行合并，用IDR软件提取高可重复性的peak; 对于没有生物学重复的样本，则随机抽取部分序列重新构建一个虚拟的生物学重复，然后进行IDR分析。

该流程采用了WDL这套pipeline语言进行开发，兼容docker, conda, 可以运行了本地服务器，也可以运行了集群上，依托于WDL的强大，保证了流程运行的稳定性，兼容性和可移植性。

唯一遗憾的是，官方并没有给出详尽的说明文档，很多的细节需要自己查阅源代码来进行理解。当然，对于使用者而言，只需安装软件和编辑配置文

最低0.47元/天解锁文章

生信修炼手册

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
强烈推荐！Encode官方的ATAC数据分析流程

欢迎关注”生信修炼手册”!Encode不仅共享了大量的组学数据，还开源了自己的数据分析pipeline, ATAC的pipeline网址如下https://github.com/ENCO...
复制链接

扫一扫