利用Minia软件对基因组测序二代数据的初步组装

一.Minia简介

基因组组装一般分为三个水平,contig, scaffold和chromosomes。contig表示从大规模测序得到的短读(reads)中找到的一致性序列,组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口(gap,用N表示),这一步会得到scaffolds, 就相当于super-contigs和meta-contigs。最后基于遗传图谱或光学图谱或者Hi-C技术,将scaffold合并调整,形成染色体级别的组装(chromosome).

目前二代测序组装基因组的工具的核心基础,是基于De Bruijn graphs法,包扩velvet, Soapdenovo, ABYSS及Minia等。Minia是内存资源最省的工具,其精确度和连续性与其他基因de Bruijn图的组装工具(如Velvet)相似,输出是一组contigs。在台式电脑上组装人类基因组contig居然只要5.7G的RAM,运行23小时,简直难以相信。

Minia软件是基于de Bruijn图原理的短序列组装工具,优于以前的ABySS和SOAPdenovo,关键是速度非常快,十几分钟就OK了,不消耗计算机资源,所以这里就选择它啦。

二.Mina下载安装及运行

下载及安装

下载地址:https://github.com/GATB/minia

下载后tar-zxvf *.tar.gz解压后,通过cmake进行编译后就能使用。

脚本:

参数解释:

用到了两个部分的参数设置:

-in data.list 记录了数据存放的位置及数据名称

--nb-cores: number of cores [default ‘0’]

结果:

圈红的文件为我们要的初步组装的基因组序列文件, 共有44905595条序列。

Unitigs:

Minia will also output unitigs, in the FASTA format. They correspond to non-branching paths in the de Bruijn graph prior to any graph simplication. File:[prefix].unitigs.fa.

也就是在构建de Bruijn图时,图的非分支路径表示的字符串,也称为unitigs。

三.使用prinseq组装序列评估

下载地址https://sourceforge.net/projects/prinseq/
tar -zxvf prinseq-lite-0.20.4.tar.gz
mv prinseq-lite-0.20.4 prinseq
perl prinseq-lite.pl -verbose  -fasta \
/public/home/lvqiang/hae_long/denovo/survey/contig_minia/minia_k35.contigs.fa \
-stats_all

四.结果:

五.报错信息:

一开始我在-in 时 直接指定了测序的R1/R2端fq.gz文件,结果总是报错,错误信息如下:

Minia 3, git commit b55a246

ERROR: Unknown parameter ’

后来发现,对minia而言,双端序列文件属于多个文件了,需要写一个txt文件记录多个文件的信息,路径和文件名。

我们看一下minia的manaul手册上的描述:

https://github.com/GATB/minia/raw/master/doc/manual.pdf

FASTA/FASTQ

Minia assembles any type of Illumina reads, given in the FASTA or FASTQ format. Giving paired or mate-pairs reads as input is OK, but keep in mind that Minia won’t use pairing information.

Multipe Files

Minia can assemble multiple input _les. Just create a text _le containing the list of read _les, one _le name per line, and pass this list as the _rst parameter of Minia (instead of a FASTA/FASTQ _le). Therefore the parameter input_file can be either (i) the read _le itself (FASTA/FASTQ/compressed),or (ii) a _le containing a list of _le names.

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值