MACS:使用最广泛的peak calling软件之一

欢迎关注”生信修炼手册”!

MACS全称是Model-based Analysis of ChIP-Seq,是使用的最广泛的peak calling软件之一,其基本原理简介如下

1. 预测测序reads与peak的偏倚距离

在chip_seq等数据中科学家发现在真实的结合位点两侧,正负链的测序深度分布如下图所示,对应峰值的中心距离peak中心有一定的偏移

MACS首先通过一个模型来评估真实的peak中心和测序峰值的偏移距离,给定参数bandwidth和mfold, 采用一个大小为2倍bandwidth的滑动窗口,比较该窗口内真实测序深度的分布与随机测序的差异,如果二者的差异倍数超过了阈值mfold,则认为该窗口是一个peak区域。识别到初始的peak区域之后,随机挑选1000个高可信度的peak区域,分别计算正链和负链的测序深度分布,示意如下

通过这种方式识别到正负链峰值之间的距离,定义为d。在后续peak calling时,会在初始计算结果的基础上向3’端偏移d/2的距离。

2. peak 检测

通常认为基因组上测序深度的分布是一个泊松分布,根据基因组测序深度的值,首先估算出整体泊松分布的参数

将初始peak区域偏移d/2的距离之后,再次已2d的滑动窗口进行滑动,寻找富集的区域,如果一个区域的测序分布的值大于整体泊松分布的值,则认为该区域是富集的。对于overlap的富集区域,进行合并,然后以peak中心区域开始,整体向3’端偏移d个碱基,其中测序深度最高的点作为peak的峰summit。

在比较input和IP样本的差异时,MACS也是基于泊松分布来计算的 ,只不过考虑到测序错误,重复区域,CNV等因素的影响,MACS采用了一个动态的泊松分布模型,即不是认为基因组所有区域都符合同一个泊松分布,而是认为不同的区域泊松分布的参数可以不同。对于候选的peak区域,通过以下模型去估算泊松分布的参数

1k代表以peak中心为中心的1k窗口内的数据估算出来的值,后面的5k, 10k类似。然后通过这个局部泊松分布的参数去计算每个peak区域的p值,如果小于指定的pvalue的阈值,则输出该peak区域,该区域内IP样本的序列条数和局部泊松分布参数的比值作为该peak的fold enrichment。

目前该软件已经更新到了2.0版本,功能更加的强大,在后续文章会详细介绍该软件的用法。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值