欢迎关注”生信修炼手册”!
chip_seq数据的质控是非常重要的,本文介绍数据质控的一个重要指标之一corss correlation。这个概念首发于以下文献
Design and analysis of ChIP-seq experiments for DNA-binding proteins
发表在nature biotechnology上,网址如下
https://www.nature.com/articles/nbt.1508
在该文章中对chip_seqs数据分析的完整pipeline进行了探究和解释,其中提出了一个peak位点两侧reads分布的规律,如下所示
图中所示的是一个NRSF转录因子结合位点两侧的reads分布,将reads分成了比对到正链和负链两部分。从黑色的密度分布曲线可以看到,二者符合同一个高斯分布。灰色竖线代表的是结合位点的中心,而reads密度分布的中心点距离peak的中心点有一定偏移。
从这张图可以发现两个规律,第一点peak位点附近的正负链上reads分布相同,第二点reads分布的中心点和peak的中心点存在偏移。为了量化这两个规律,科学家们提出了strand cross-correlation这个概念,考虑到reads分布相同而各自的中心点又存在一定距离,那么将reads的位置移动一定距离之后,正负链的中心重合,此时二者对称分布,可以参见下图