文献解读|使用hi-C数据辅助埃及伊蚊基因组的组装

欢迎关注”生信修炼手册”!

早在2013年的时候, 就已经有科学家提出了利用Hi-C数据来辅助基因组组装的思路,可以将scaffold进一步提升到染色体级别的长度,并提供了配套的分析软件LACHESIS。该软件默认输入的基因组组装结果完全正确,后续的操作都是建立在这个前提下。然而实际情况中,受到组装算法的限制,基因组草图中会存在拼接错误的情况。

在2017年的时候,又有科学家提出了利用hi-c辅助基因组组装的新思路,并利用该思路进行了埃及伊蚊的基因组组装,对应的文章发表在science上,链接如下

https://science.sciencemag.org/content/356/6333/92/tab-pdf

在该文章提供的分析思路中, 首先会根据hi-c数据的结果,对输入的基因组组装结果中的拼接错误进行校正,然后在进行后续分析,整个pipeline如下图所示

可以分成以下4个大的步骤

  1. preliminary filtration

  2. misjoin correction

  3. ordering and orientation

  4. overlap merging

第一步首先对基因组组装的结果进行预处理,去除长度太短的scafflod。长度过短的scaffold在hi-c图谱中对应的交互信息会非常的少,没有足够的交互信息无法有效的进行后续分析;第二步利用hi-c数据校正scaffold中存在的拼接错误,对于检测到存在拼接错误的scaffold, 将其切割为存在拼接错误的inconsistent部分和未检测到拼接错误的consistent部分,inconsistent部分不会进行后续分析。

第三步确定归属同一条染色体的scaffold,并进行排序和调整方向;第四步检测同一条染色体上的scaffold间是否存在overlap, 对于存在overlap的scaffold, 进行merge。

应用该算法结合hi-c数据对埃及伊蚊的基因组结果重新组装后,效果如下所示

可以看到,由最初的草图组装到了最终的染色体级别。该算法对任意的基因组组装都是适用的,值得一提的是该文章指出,通过hi-c数据辅助基因组组装得到的最终结果中,还是会存在部分的错误结果,这个是不可避免的。

文章中对应的软件链接如下

https://github.com/theaidenlab/3d-dna

后续会详细介绍其用法。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值