hi-c辅助基因组组装简介

最新推荐文章于 2023-12-13 17:44:40 发布

生信修炼手册

最新推荐文章于 2023-12-13 17:44:40 发布

阅读量1.6k

点赞数 4

文章标签：聚类算法图论人工智能 java

本文链接：https://blog.csdn.net/weixin_43569478/article/details/108079524

版权

欢迎关注”生信修炼手册”!

hi-c一次建库可以获取全基因组范围内的染色质互作信息，从而去研究染色质三维结构的不同层级单元,。通过hi-c来研究染色质三维结构，是其主要应用场景。除此之外，hi-c数据还有一个应用领域，那就是可以用来辅助基因组组装。

在NGS不断发展的今天，测序组装得到一个物种的基因组草图是一个非常容易的事情。然而，在草图的基础上，想要进一步得到基因组的完成图，就不是单纯的增加测序量可以解决的事情。为了明确草图中各个scaffold对应的染色体以及各自在基因组上的排列顺序，经典的解决方案是通过构建长片段的mate pair文库来确定scaffold的连接顺序，从而可以将各个scaffold连接起来，不断延伸以达到染色体的组装级别。

由于NGS的诸多限制性因素，比如GC含量，测序读长， mapping准确率等无法回避的问题，对于高重复序列，高杂合度的基因组，利用NGS测序数据，想要组装到染色体级别是一件非常困难的事情，特别是对于大型动植物的基因组组装而言。当然三代测序凭借其长读长的优势在基因组组装领域独领风骚，攻克了很多物种的基因组组装难题，但是其高昂的成本也制约着该技术的广泛应用。

通过hi-c数据，科学家发现在同一条染色体上的染色质片段互作频率更高，不同染色体间的互作频率较低。利用这一特性，有人提出了利用hi-c数据来辅助基因组组装的思路，对应的文章发表在nature biotechnology上，链接如下

https://www.nature.com/articles/nbt.2727

在该文章中，提出了利用hi-c辅助基因组组装的具体思路，如下图所示

分成了三个步骤，第一步首先根据scaffold/contig的hi-c交互矩阵，进行聚类，属于同一条染色体的scaffold/contig聚到一起；第二步确定同一染色体上的多个scaffold/contig的排列顺序；第三步确定scaffold/contig的方向性。下面来具体看一下

1. cluster

该部分对contig进行聚类，算法的原理示意如下

图a所示有5个contig, 来自于两条染色体，用不同颜色表示，contig之间连线的粗细对应hi-c矩阵中交互频率的高低。聚类的第一步首先将交互频率最高的两个contig作为一类，对应图b中的圆角矩形，聚为一类的两个contig作为一个这个整体重新计算和其他contig的互作频率。依次循环，每次循环都将互作频率最高的两个contig或者cluster聚为一类，直到所有的contig都划分到cluster为止。

从聚类的原理可以看到，正是利用了同一个染色体片段间的互作频率高的特点，将每次互作频率高的contig聚为一类。聚类完成之后，属于同一个染色体的contig就聚集在了一起。