hi-c辅助基因组组装简介

欢迎关注”生信修炼手册”!

hi-c一次建库可以获取全基因组范围内的染色质互作信息,从而去研究染色质三维结构的不同层级单元,。通过hi-c来研究染色质三维结构,是其主要应用场景。除此之外,hi-c数据还有一个应用领域,那就是可以用来辅助基因组组装。

在NGS不断发展的今天,测序组装得到一个物种的基因组草图是一个非常容易的事情。然而,在草图的基础上,想要进一步得到基因组的完成图,就不是单纯的增加测序量可以解决的事情。为了明确草图中各个scaffold对应的染色体以及各自在基因组上的排列顺序,经典的解决方案是通过构建长片段的mate pair文库来确定scaffold的连接顺序,从而可以将各个scaffold连接起来,不断延伸以达到染色体的组装级别。

由于NGS的诸多限制性因素,比如GC含量,测序读长, mapping准确率等无法回避的问题,对于高重复序列,高杂合度的基因组,利用NGS测序数据,想要组装到染色体级别是一件非常困难的事情,特别是对于大型动植物的基因组组装而言。当然三代测序凭借其长读长的优势在基因组组装领域独领风骚,攻克了很多物种的基因组组装难题,但是其高昂的成本也制约着该技术的广泛应用。

通过hi-c数据,科学家发现在同一条染色体上的染色质片段互作频率更高,不同染色体间的互作频率较低。利用这一特性,有人提出了利用hi-c数据来辅助基因组组装的思路,对应的文章发表在nature biotechnology上,链接如下

https://www.nature.com/articles/nbt.2727

在该文章中,提出了利用hi-c辅助基因组组装的具体思路,如下图所示

分成了三个步骤,第一步首先根据scaffold/contig的hi-c交互矩阵,进行聚类,属于同一条染色体的scaffold/contig聚到一起;第二步确定同一染色体上的多个scaffold/contig的排列顺序;第三步确定scaffold/contig的方向性。下面来具体看一下

1. cluster

该部分对contig进行聚类,算法的原理示意如下

图a所示有5个contig, 来自于两条染色体,用不同颜色表示,contig之间连线的粗细对应hi-c矩阵中交互频率的高低。聚类的第一步首先将交互频率最高的两个contig作为一类,对应图b中的圆角矩形,聚为一类的两个contig作为一个这个整体重新计算和其他contig的互作频率。依次循环,每次循环都将互作频率最高的两个contig或者cluster聚为一类,直到所有的contig都划分到cluster为止。

从聚类的原理可以看到,正是利用了同一个染色体片段间的互作频率高的特点,将每次互作频率高的contig聚为一类。聚类完成之后,属于同一个染色体的contig就聚集在了一起。

2.  order

该部分确定同一组contig排列的先后顺序,算法的原理示意如下

这部分应用到了图论中的各种算法,理解不到位,就不展开了。

3.   orientation

该部分确定contig的方向,算法的原理示意如下

这部分应用到了图论中的各种算法,理解不到位,就不展开了。

结合Hi-C数据,可以明确基因组草图中scaffold和染色体对应关系,确定scaffold之间的排列顺序和方向,进一步提高了组装的精度。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

### 回答1: Hi-C全基因组互作热图的纠正一般包括以下步骤: 1. 观察样本数据:首先需要仔细观察样本数据,识别出可能存在的技术偏差或实验问题。这些问题可能包括:测序深度不足、DNA交联效率不均等。 2. 调整数据:根据观察到的问题,可以采用一些数据调整方法进行纠正。例如,可以通过规范化来消除测序深度不足的影响,或者使用控制组数据进行校正。 3. 进行归一化: Hi-C数据的归一化可以消除不同染色体区域的互作频率差异。目前主要采用的方法是"Knight-Ruiz matrix balancing" 或"ICE",可以使用相关的软件包进行计算。 4. 可视化和分析:在进行数据纠正和归一化后,可以使用不同的可视化工具来呈现Hi-C热图,进一步分析不同区域的互作模式。 总之,Hi-C数据的纠正是一个复杂的过程,需要考虑多个因素的影响。需要仔细观察样本数据,选择合适的数据调整和归一化方法,并使用适当的工具进行可视化和分析。 ### 回答2: 纠正Hi-C全基因组互作热图的过程主要涉及以下几个步骤: 1. 数据预处理:首先对原始的Hi-C测序数据进行质量控制和去噪处理,排除可能由于测序误差、低质量序列等引起的假阳性信号。 2. 读对齐和去重复:将处理后的Hi-C数据进行比对,将每一对Hi-C相互作用的测序片段与基因组准确对齐,同时去除重复的片段,减少重复计数的影响。 3. 规范化:对比对和去重复后的Hi-C数据进行规范化处理,主要是为了消除测序片段质量不均匀、库大小不一致等因素带来的偏差。常见的规范化方法有总读数规范化、自回归模型等。 4. 互作热图构建:根据规范化后的数据,可以将互作矩阵以矩阵的形式呈现,每个元素代表染色体上两个区域之间的交互频率。可以使用不同的软件工具进行矩阵构建和可视化。 5. 信噪比校正:由于实验中存在一些技术上的误差和偏差,容易导致互作热图中的信号强度失真。因此,在构建互作热图的过程中,需要考虑噪音的校正,抑制噪音的影响,提高信噪比。 6. 互作模式分析:对构建好的互作热图进行进一步分析,可以应用聚类、可视化等方法,发现和描述基因组中各个区域之间的互作模式,从而深入理解全基因组互作的空间结构和功能。 总之,纠正Hi-C全基因组互作热图是一个复杂且多步骤的过程,需要充分考虑数据质量控制、准确的比对、规范化处理以及信噪比的校正等方面,以获得准确、可靠的互作热图,进一步探索基因组在空间上的互作关系和功能。 ### 回答3: 纠正Hi-C全基因组互作热图的方法有很多。首先,我们需要考虑到Hi-C技术中可能存在的实验偏差和噪音。以下是一些纠正Hi-C互作热图的主要步骤: 1. 实验偏差校正:实验过程中的偏差可能会导致热图的不准确性。例如,测序效率的差异、剪切效应等。通过使用数学模型来对这些实验偏差进行校正,可以提高热图的质量。 2. 标准化:原始的互作矩阵可能会受到序列的长度和测序深度的影响,导致不同区域的互作频率存在差异。因此,需要对矩阵进行标准化,使得不同区域的互作频率可以进行比较。常见的标准化方法包括总互作信号的归一化、基因组区域互作概率的平衡等。 3. 过滤:在热图中,存在一些噪音或无关的信号,需要将其过滤掉。可以使用滤波器、阈值等方法,将低于一定阈值的互作信号排除。 4. 可视化:将纠正后的互作热图进行可视化,能够更直观地展示基因组的互作模式。可以使用各种绘图工具和软件来实现热图的可视化,如基因组浏览器、热图软件等。 总之,纠正Hi-C全基因组互作热图需要从实验偏差的校正、标准化、过滤和可视化等多个方面进行处理。这些步骤能够提高热图的准确性和可靠性,进而更好地理解基因组的互作关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值