hi-c辅助基因组组装简介

欢迎关注”生信修炼手册”!

hi-c一次建库可以获取全基因组范围内的染色质互作信息,从而去研究染色质三维结构的不同层级单元,。通过hi-c来研究染色质三维结构,是其主要应用场景。除此之外,hi-c数据还有一个应用领域,那就是可以用来辅助基因组组装。

在NGS不断发展的今天,测序组装得到一个物种的基因组草图是一个非常容易的事情。然而,在草图的基础上,想要进一步得到基因组的完成图,就不是单纯的增加测序量可以解决的事情。为了明确草图中各个scaffold对应的染色体以及各自在基因组上的排列顺序,经典的解决方案是通过构建长片段的mate pair文库来确定scaffold的连接顺序,从而可以将各个scaffold连接起来,不断延伸以达到染色体的组装级别。

由于NGS的诸多限制性因素,比如GC含量,测序读长, mapping准确率等无法回避的问题,对于高重复序列,高杂合度的基因组,利用NGS测序数据,想要组装到染色体级别是一件非常困难的事情,特别是对于大型动植物的基因组组装而言。当然三代测序凭借其长读长的优势在基因组组装领域独领风骚,攻克了很多物种的基因组组装难题,但是其高昂的成本也制约着该技术的广泛应用。

通过hi-c数据,科学家发现在同一条染色体上的染色质片段互作频率更高,不同染色体间的互作频率较低。利用这一特性,有人提出了利用hi-c数据来辅助基因组组装的思路,对应的文章发表在nature biotechnology上,链接如下

https://www.nature.com/articles/nbt.2727

在该文章中,提出了利用hi-c辅助基因组组装的具体思路,如下图所示

分成了三个步骤,第一步首先根据scaffold/contig的hi-c交互矩阵,进行聚类,属于同一条染色体的scaffold/contig聚到一起;第二步确定同一染色体上的多个scaffold/contig的排列顺序;第三步确定scaffold/contig的方向性。下面来具体看一下

1. cluster

该部分对contig进行聚类,算法的原理示意如下

图a所示有5个contig, 来自于两条染色体,用不同颜色表示,contig之间连线的粗细对应hi-c矩阵中交互频率的高低。聚类的第一步首先将交互频率最高的两个contig作为一类,对应图b中的圆角矩形,聚为一类的两个contig作为一个这个整体重新计算和其他contig的互作频率。依次循环,每次循环都将互作频率最高的两个contig或者cluster聚为一类,直到所有的contig都划分到cluster为止。

从聚类的原理可以看到,正是利用了同一个染色体片段间的互作频率高的特点,将每次互作频率高的contig聚为一类。聚类完成之后,属于同一个染色体的contig就聚集在了一起。

2.  order

该部分确定同一组contig排列的先后顺序,算法的原理示意如下

这部分应用到了图论中的各种算法,理解不到位,就不展开了。

3.   orientation

该部分确定contig的方向,算法的原理示意如下

这部分应用到了图论中的各种算法,理解不到位,就不展开了。

结合Hi-C数据,可以明确基因组草图中scaffold和染色体对应关系,确定scaffold之间的排列顺序和方向,进一步提高了组装的精度。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值