测序相关专有名词

承豆

已于 2022-03-23 20:03:17 修改

阅读量3.1k

点赞数

分类专栏：测序文章标签：科技 python

于 2022-03-22 18:26:15 首次发布

本文链接：https://blog.csdn.net/yearstime/article/details/123667810

版权

测序专栏收录该内容

7 篇文章

订阅专栏

De novo（拉丁文）：从头开始的意思，de nove测序则是指在不需要任何参考序列的情况下对某一物种进行基因组测序，然后将测得的序列进行拼接、组装，从而绘制该物种的全基因组序列图谱。
重测序概念：重测序是全基因组重新测序的简称，是指是对已知基因组序列的物种进行不同个体的基因组测序，并在此基础上对个体或群体进行差异性分析。（没有组装的短的Reads序列）.
Reads：即我们通常说的读长的意思，它是指高通量测序平台直接产生的DNA序列。
Contig：是指Reads基于Overlap关系，拼接获得的长序列；
**Scaffold（直译为脚手架，我姑且翻译为不连续长序列）：**是指将获得的Contig根据大片段文库的Pair-end关系，将Contig进一步组装成更长的序列；Contig是无Gap的连续的DNA序列，而Scaffold是存在Gap的DNA序列。

大片段文库是指插入片段大于1Kb的文库，大片段文库主要是用于将Contig进一步组装成Scaffold。文库类型通常有2Kb、5Kb、10Kb、15Kb以及20Kb等。
小片段文库是指插入片段小于1Kb的文库，小片段文库产生的Reads主要用于拼接成Contig。例如在de nove测序中，我们通常要不同梯度下片段如250bp、350bp、500bp等。
基因片段（Fragments ）：二代测序的读长有限，需要将样本基因打成长度较小的片段，一般使用超声波将长序列打碎为100-300bp的短片段，由测序仪读长决定。
单端测序，双端测序：只从fragments一端向另一端单方向测序，被称为单端测序，如果从两端分别向另一端进行两个方向的测序，那么就被称为双端测序。单端测序每个fragment得到一个Read，双端测序每个fragment得到两个方向相反的Reads。
N50，N90：将拼接得到的contigs或scaffolds按由短到长的顺序依次排列，按照总长度的一半（N90为90%），找到对应的contig或scaffold，这个contig或scaffold的长度被称为N50/N90，用来衡量测序的质量，长度越长，说明测序质量越好。
Unigene（无重复scaffold）：在去冗余之后，得到的scaffold，每个unigene（或者他们所属的类），都代表唯一一个基因，不与其他的unigene产生重复。
测序深度：测序得到的总碱基数与待测基因组大小的比值，可以反应在测序得到的文件大小上，测序深度越高，得到的碱基数越多。
覆盖度：测序所获得序列占整个基因组的比例。
批次效应：在二代测序结果中，由于每次的样品的测序深度不同，或者受到非生物学因素影响（比如操作人员不同）而造成的多次重复测序结果的差异。
index/barcode（标签序列）：用二代测序同时测多个样本时，给来自不同样本的序列分别添加一段不同的的碱基序列，作为区分用的标签，一般长度为6nt。
adapter（接头序列）：adapter不是一段特定的序列，一般是index＋引物＋P7/P5也就是除了fragments序列添加到待测序列两段的序列，总称为adapter。
K-mer：将一条Reads连续切割，切割为长度为K的片段，如K25的长度为25bp。可以反应样品中的物种丰富度，物种丰富度越高，不同的kmer越多。

基因组组装：对于测得的序列，例如通过Hiseq X ten平台进行测序，我们直接获得是许多长度为150bp Reads；de nove测序最重要的目的就是对这些短的Reads进行组装、拼接，最终绘制出这个物种的基因组图谱。而重测序则不需要对Reads进行组装，而是直接将获得短的Reads序列与参考基因组进行比对，从而找出相应的变异位点。这是de novo测序比重测序价格贵的原因之二。对于利用高通量技术对物种基因组进行测序，不少人可能认为可以得到每条染色体的序列，这其实是错误的，很多物种得到的序列都是一些长长短短的Scaffolds以及一些未组装的Reads。如果要组装到染色体水平则需要借助遗传图谱的辅助。对于一些高重复高杂合的区域，由于目前组装算法以及测序技术的限制，这些区域往往组装的效果不是特别理想。
基因组组装质量评估：ContigN50是指将拼接得到的Contig从长到短进行排列，排列成一条线。当长度达到总长度一半的时候，此时该条Contig的长度即为ContigN50。ScaffoldN50是将组装得到的Scaffold从长到短进行排列，当长度达到总长度一半的时候，此时该条Scaffold的长度即ScaffoldN50一般来说ContiN50和ScaffoldN50的长度越长，基因组组装的质量也就越好。但是ContigN50和ScaffoldN50也不是唯一评估标准，还要看基因组的拼接的完整性等。除用ContigN50和ScaffoldN50对基因组进行评估外，还会对基因组进行序列一致性评估、序列完整性评估、准确性评估、Cegma保守性评估等。
**基因组注释:**对于组装得到的序列其实是一系列的ATCG的排列组合，那如何解读序列中的信息呢？我们要做的是对基因组进行注释，注释主要是对基因组中的
• 重复序列注释
• 非编码RNA的注释
• 基因结构的注释
• 基因功能的注释
注释的方法有同源注释以及de nove预测等。重复序列的注释主要是串联重复序列注释（卫星DNA、小卫星DNA以及微卫星DNA等）和散列重复序列（LTR、LINE、SINE以及转座子序列等）。非编码RNA的注释主要是对MicroRNA、rRNA以及tRNA等注释；基因注释主要是对基因的启动子、外显子、内含子等注释。
基因组特征评估：