强烈推荐!Encode官方的ATAC数据分析流程

欢迎关注”生信修炼手册”!

Encode不仅共享了大量的组学数据,还开源了自己的数据分析pipeline, ATAC的pipeline网址如下

https://github.com/ENCODE-DCC/atac-seq-pipeline

提供了从原始的fastq数据开到,到peak caling结束的基础分析功能,尽管缺少了下游的差异分析和motfi分析,这套流程依然值得推荐。

该流程同时支持有生物学重复和无生物学重复两种情况,对于有生物学重复的数据,分析的流程图如下

对于没有生物学重复的数据,流程图如下

从fastq到peak calling, 只需通过trim, mapping, peak calling三部曲即可,其他流程中可能就是3个步骤对应的软件跑一下,在Encode的这套流程中添加了更多的细节分析。

首先来看下基本的三部曲,通过cutadapt软件去除adapter和低质量序列,然后是bowitie2比对参考基因组,最后调用MACS2进行peak calling。

对于比对产生的原始bam文件,采用了samtools和picard去除PCR重复序列,然后利用bedtools转换为TagAlign格式,在转换的过程中去除了线粒体的序列,然后进行shift操作,最后输入到macs2软件中,这个过程称之为post-alignment,每一步过滤的reads都进行了详细统计,还计算了NRF, PBC1等文库复杂度指标,同时提供了TSS Enrichment score,和TSS两侧reads分布图,插入片段插入分布图等可视化结果。

peak calling部分,称得上是该流程最大的亮点,采用了IDR软件来评估peak的可重复性。对于有生物学重复的样本,先对每个生物学重复进行peak calling, 然后进行合并,用IDR软件提取高可重复性的peak; 对于没有生物学重复的样本,则随机抽取部分序列重新构建一个虚拟的生物学重复,然后进行IDR分析。

该流程采用了WDL这套

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值