Manta 的使用方式简介
一 Manta简介
1.1 原理简介
Manta 寻找结构变异以及indel的步骤可以分为两步:
1.1.1 Build breakend association graph
在这一步骤中,整个基因组被扫描,以发现可能的SV和大缺失的证据。这些证据被列举成一个图,图包括用边缘连接基因组中所有可能存在断裂关联的区域。边缘可以连接基因组的两个不同区域,以代表长距离关联的证据,或者一条边缘可以将一个区域连接到它自己,以捕捉一个局部缩略词/小SV的关联。
1.1.2 Analyze graph edges to find SVs
第二个步骤为分析每个图的边缘去发现与边缘有关的SV并且给之得分。
1.2 Manta的优缺点
1.2.1 优点
在使用Manta等10多种软件对NA12878,CHM1/CHM13以及HG002等三个已知数据集进行分析,并统计其Recal以及Precision。结果如下图所示,实圈代表经过过滤,而虚圈代表未经过过滤。
NA12878的测试数据为50X,双端101bp的数据,在此数据中,Manta的表现中等,CHM1/CHM13的测试数据为80x,双端151bp的数据,在此数据中,Manta的表现较好,Precision仅低于Gridss,Cortex;而且Recall值并不低;HG002测试数据为60x,双端151bp的数据,在此数据中,Manta表现最佳,除去Pindel在Recall率上比Manta高外,Manta的Recal以及Precision的综合最佳。
1.2.2 缺点
运行Manta时间较长,且manta依赖过多,如不适用conda 安装较为困难。
二 Manta的使用方式
2.1 Manta支持的数据类型
Manta支持paired-end测序数据,其输入的数据如下:
1.小型的二倍体家系数据(小型意味着数据样本量小于10,对于大型样本量数据正在测试)
2.一对匹配的肿瘤/正常样本数据
3.单个个体的肿瘤数据
2.2 Manta检测的变异类型
Manta能检测的SV包括以下类型:
- Deletions 缺失
- Insertions 插入
- Fully-assembled insertions
- Partially-assembled (ie. inferred) insertions
- Inversions 倒位
- Tandem Duplications 串联重复
- Interchromosomal Translocations 染色体易位
而对于Dispersed repeats(散在重复,也被称为转座子TE);Most expansion/contraction variants of a reference tandem repeat(一个经过扩增/收缩已知的串联重复的突变);Small inversions(小于200bp的倒位);Fully-assembled large insertions(完全组装的大插入)不能检测
2.3 Manta的使用方式
2.3.1 Manta安装
使用conda对Manta进行安装,Manta需要python2的环境,所以需要新建立一个环境
conda create -n manta ##建立一个新的环境
conda install manta -c bioconda ##安装manta软件
2.3.2 Manta使用
2.3.2.1 生成脚本文件
configManta.py
--bam test.bam
--exome
--runDir /your/directory/
--callRegions probeCov.bed.gz
--referenceFasta GRCh38.d1.vd1.fa
其中 如果有多个bam文件(manta可支持10个以内的数据)可以加多个**–bam**参数。
–exome代表本次数据为外显子数据,–runDir代表本次工作目录,–callRegions代表外显子测序捕获区域,–referenceFasta代表参考基因组
运行上述代码框中脚本运行后,在**–runDir中的工作目录中生成runWorkflow.py**文件
2.3.2.2 运行runWorkflow.py
runWorkflow.py为最终的脚本文件,使用manta环境中的python运行此文件:
python runWorkflow.py
运行完成后会在当前目录下生成results文件夹,其中包含evidence,stats,variants这三个文件夹。其中variants中包括diploidSV.vcf.gz,somaticSV.vcf.gz,candidateSV.vcf.gz,candidateSmallIndels.vcf.gz这四个vcf文件。
其中最主要的为diploidSV.vcf.gz文件。其中包括经过二倍体验证并且得分的SVs以及Indels。
candidateSV.vcf.gz此文件中包括候选的SV以及indel,未经过评分SV以及Indel,从其中筛选出diploidSV.vcf.gz中的SV以及indel。
andidateSmallIndels.vcf.gz此文件为candidateSV.vcf.gz文件中小于50bp的插入以及缺失片段。
2.3.2.3 得到倒位变异
对于Inversions突变,manta可以使用自带脚本convertInversion.py对diploidSV.vcf.gz处理。
使用方式为
python convertInversion.py <samtools path> <reference fasta> <vcf file>
其中samtools path,使用conda安装时会自动安装
reference fasta为参考基因组位置
vcf文件为需要处理的vcf文件位置。
对diploidSV.vcf.gz进行处理后,得到inversion.vcf文件,为将diploidSV.vcf.gz倒位信息处理后的文件,其余变异信息不变。
Cameron, Daniel L., Leon Di Stefano, and Anthony T. Papenfuss. “Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software.” Nature communications 10.1 (2019): 1-11.