欢迎关注”生信修炼手册”!
在之前的文章中,我们解读过一篇引用达2000多次的ATAC经典文献
这篇文章中,使用了Genrich这个软件来进行peak calling。该软件适用于chip_seq, DNase_seq, ATAC_seq等多种文库的peak calling,源代码保存在github上,链接如下
https://github.com/jsh58/Genrich
该软件用法简单,只需要输入排序之后的bam文件即可,其peak calling的基本算法如下所示
对原始bam文件进行过滤,该软件只针对双端测序的bam文件,默认情况下只保留双端同时比对到基因组上的序列。和macs2不同,该软件支持multimapping reads,对于比对到基因组多个位置的reads, 每个位置会计算一个权重。同时还可以过滤PCR重复序列,去除指定染色体上的序列
如果提供了control样本,首先利用control样本构建一个背景
对于treat样本,利用log-normal分布来计算每个位点的p值
多重假设检验的校正,将p值转换为q值
计算统计学显著,即p值或者q值小于0.05的区域,对应的曲线下的面积,即AUC, 设定AUC的阈值,如果一个区域的AUC大于阈值,则定义为peak
该软件有两种运行模式,第一种适用于chip_seq, 第二种适用于ATAC。对于ATAC的reads,需要对reads比对位置进行shift, 所以peak calling的模式也会有所不同,图示如下