一、线粒体基因组介绍
(一)基本介绍
大多数动物线粒体基因组为双链环状DNA分子(J链和N链)。非孟德尔遗传,一般为母系遗传。也有部分为父系遗传,例如哺乳动物中绵羊。动物的线粒体基因组一般15~20 kb。线粒体是古老的具有自主复制和遗传能力的细胞器。 重组是线粒体基因组进化的主要方式。动物线粒体基因组结构相对保守,基因排列紧凑,这些特点都跟植物叶绿体基因组相似。
图片引自《蝙蝠蛾鳞翅虫草Samsoniella hepiali模式菌株线粒体基因组系统发育分析》
(二)线粒体基因组的结构组成
基因组结构:双链编码基因(大多数动物通常包含13个编码蛋白质的基因);rRNA和tRNA基因 。
动物:3′端有一段具有二级结构 的控制区(又称D一环区,displacement loop region), 控制线粒体DNA 的复制和转录。这一区域多是串联重复序列,并在核DNA上有同源区。 它与转座、错配表达和线粒体基因组异质(heteroplasmy) 相关。
(三)生物学意义结构变异
进化关系的推断:通过同属/科/目物种线粒体基因组共有基因进行系统发育分析,得到整个种/属/科/ 目的进化情况
基因组重组和基因转移:线粒体基因组的结构变异可以涉及基因组重组和基因转移事件。这些事件 可以导致线粒体基因组的重塑和重组,从而在进化过程中产生新的线粒体基因组结构。
雄性不育相关基因的鉴定 线粒体基因组中的某些区域被认为与雄性不育相关,通过对具有雄性不育表型和正常育性表型的个体 进行基因组比较,可以鉴定与雄性不育相关的基因,并为雄性不育系育种提供理论指导和实践应用。
物种鉴定(高可变区等) 线粒体基因组具有高度可变的区域,如高变区,可以用于物种的鉴定和鉴别。
二、动物线粒体基因组组装策略
需要选择近缘物种的线粒体基因组或 部分片段作为参考序列从研究类群的 全基因组数据中捕获线粒体reads,软 件:GetOrganelle、NOVOPlasty等
三、实操
首先安装GetOrganelle软件
conda create -n getorganelle python=3.6.8 #创建getoganelle的环境,可通过python3 -V查看当前的python版本,使用系统中存在的python版本 conda install -n getorganelle -c bioconda getorganelle #在miniconda3上安装getorganelle
安装好软件后下载数据比对库,这里以动物线粒体基因组为例
get_organelle_config.py --add animal_mt
激活一下软件
conda activate getorganelle
到这里我们就可以使用这个软件进行组装了,如果测序数据比较大,我们可以截取一部分数据进行线粒体基因组的组装,如果数据少的话就不需要了,直接用全部。一般组装动物线粒体基因组数据2g左右就可以了,具体跟线粒体基因组含量,染色体基因组大小有关。
从总的clean data中提取部分数据
head -n 20000000 data_R1.fastq > R1.fastq head -n 20000000 data_R2.fastq > R2.fastq
用提取的部分测序数据进行线粒体基因组组装,命令如下:
get_organelle_from_reads.py -1 /mydataplace/R1.fastq -2 /mydataplace/R2.fastq -o GetOrganelle_out -R 15 -k 21,45,65,85,105 -F animal_mt
其中-1为5'端向3'端测得的序列;-2为3'端向5'端测得的序列,-o为输出的文件夹,-R为迭代循环次数,-k为打断成的kmer大小(为奇数,不能超过测序长度,例如pe150测序不能超过149),-f为组装的类型。另外,可以加入-s参数指定参考线粒体基因组(可以放入近缘种的做参考),-t参数来指定使用的cpu数量,更多参数可以去官网看一下。
组装完成后结果序列文件中如果有circular即是成环。
基本上这样就可以了,如果没成环可以调整一下-R、-k参数,或者用NOVOplasty以最长的contig为seed进行延伸(不建议用这个方法,因为可能有不定碱基或者gap的出现)。除非控制区特别长,或者样本有问题,一般二代就可以完成动物线粒体基因组组装。
四、总结
虽然植物线粒体基因组结构复杂,但对于动物来说,其结构还是较为保守的。总体来说动物线粒体基因组组装相对容易,唯一可能的难题就是控制区的组装,若控制区过长,还需设计引物来补齐缺口(极小一部分需要)。