变异检测准确性评估软件 RTG-tools 使用

RTG-tools 简介

RTG工具是RTG核心的子集,包括几个有用的实用程序,用于处理VCF文件和序列数据。其中最有趣的可能是vcfeval命令,它执行VCF文件的复杂比较。

传统工具尝试通过直接比较变异位置、等位基因和基因型来进行比较,然而它们本质上无法处理常见的表示差异,特别是处理复杂变异或比较由不同的调用程序产生的变异时。

RTG vcfeval在单倍型水平上执行变异比较,也就是确定在应用于参考基因组时,比较的VCF中鉴定的基因型是否导致相同的基因组序列。迄今为止,没有其他工具能够像RTG vcfeval一样准确且快速地执行此分析。RTG vcfeval输出包含比较结果、摘要指标和ROC曲线数据文件的VCF文件。

与vcfeval一起,rocplot命令提供了一种轻松的方法来交互式地检查来自一个或多个vcfeval运行的ROC曲线,以帮助选择适当的评分属性和过滤阈值。

RTG-tools 使用

具体安装步骤不再赘述,参考 RTG-tools GitHub Installation操作即可。

基本使用命令行:

rtg vcfeval --template RTG_hg19_SDF \
--baseline HG001_GRCh37_1_22_v4.2.1_benchmark.vcf.gz \
--calls sample.call.vcf.gz \
--sample HG001,NA12878 \
--output ./GIAB_NA12878

参数说明:

  1. --template用于指定参考基因组 SDF 文件资源目录, 目录中包含如下文件:
├── done
├── format.log
├── mainIndex
├── namedata0
├── nameIndex0
├── namepointer0
├── progress
├── reference.txt
├── seqdata0
├── seqdata1
├── seqdata2
├── seqdata3
├── seqpointer0
├── seqpointer1
├── seqpointer2
├── seqpointer3
├── sequenceIndex0
├── suffixdata0
├── suffixIndex0
├── suffixpointer0
└── summary.txt

使用如下命令生成 SDF 资源文件:

rtg format -o human_REF_SDF human_REF.fasta
  1. --baseline 指定 VCF 格式的变异基线文件,例如 GIAB 的 NA12878 等标准品的突变基线文件。
  2. --calls 指定需要比较的 VCF 文件。
  3. --sample 如果 VCF 文件中包含多个样品信息,通过这个参数分别指定基线文件的样品 ID 和待比较文件的样品 ID,逗号前指定 --baseline 文件中的样品 ID,逗号后指定 --calls 文件中的样品 ID。
  4. --output 指定输出目录。

针对靶向区域进行比较

当我们的测序方式为靶向测序,如果进行整体比较那么结果会被非靶向区域低覆盖区域所影响,所以需要针对靶向区域进行比较。
方法比较简单,为程序提供靶向区域的 bed 文件即可。命令行如下:

rtg vcfeval --template RTG_hg19_SDF \
--bed-regions target_region.bed
--evaluation-regions target_region.bed
--baseline HG001_GRCh37_1_22_v4.2.1_benchmark.vcf.gz \
--calls sample.call.vcf.gz \
--sample HG001,NA12878 \
--output ./GIAB_NA12878

参数说明:

  1. --bed-regions 设置该参数,将只会读取 VCF 与提供的 Bed 文件区域内 overlap 的记录。
  2. --evaluation-regions 设置该参数,将在提供的 bed 文件区域内进行评估。

结果

软件的运行速度很快,尤其是与 hap.py 软件对比更加明显。
结果目录下文件一览:

├── done
├── fn.vcf.gz
├── fn.vcf.gz.tbi
├── fp.vcf.gz
├── fp.vcf.gz.tbi
├── non_snp_roc.tsv.gz
├── phasing.txt
├── progress
├── snp_roc.tsv.gz
├── summary.txt
├── tp-baseline.vcf.gz
├── tp-baseline.vcf.gz.tbi
├── tp.vcf.gz
├── tp.vcf.gz.tbi
├── vcfeval.log
└── weighted_roc.tsv.gz

其中最重要的文件是summary.txt 里面包含了真阳性位点、假阳性位点、假阴性位点的数量、精确性、灵敏性和F-measure指数。
如果想知道这几类位点的具体信息可以分别查看结果目录中其他 vcf.gz 文件。

名称缩写定义
false positiveFP在高置信度区域由变体调用者调用的变体,但与黄金标准数据的基因型不同
false negativeFN高置信度的黄金标准变体未被变体调用者调用
true positiveTP在高置信度区域由变体调用者调用的变体与黄金标准数据具有相同的基因型
true negativeTN高置信度区域中的参考等位基因,而不是金标准变体
精确性指标计算公式: Precision = TP/(TP + FP)
灵敏性指标计算公式: Sensitivity = TP/(TP + FN)

通常我们根据 Precision 和 Sensitivity 两个指标就可以判断某个变异检测流程的准确性如何了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
libero_soc_megavault软件是一种用于FPGA(现场可编程门阵列)设计的软件工具。下面是关于libero_soc_megavault软件安装的300字中文回答。 libero_soc_megavault软件是Microsemi(前身为Actel)公司提供的一款专业开发软件,用于设计和编程FPGA。它支持Microsemi公司的SmartFusion和RTG4等系列器件,可以帮助用户开发出高性能的、可靠的FPGA应用。 要进行libero_soc_megavault软件的安装,首先需要获取软件安装包。用户可以通过Microsemi官方网站进行软件下载或者联系Microsemi技术支持获取软件安装包的链接。 下载软件安装包后,解压缩文件,并进入解压缩后的文件夹。在文件夹中,你会找到安装向导或者安装脚本。运行安装向导或者安装脚本,按照指示进行安装。在安装过程中,你可能需要接受软件许可协议,并选择安装目录等设置。 安装完成后,你可以在开始菜单或者桌面上找到libero_soc_megavault软件的图标。点击该图标以启动软件。 启动libero_soc_megavault软件后,你会看到一个用户友好的界面,里面包含了各种设计工具和资源。你可以使用这些工具来创建、仿真、验证和下载FPGA设计。 在使用libero_soc_megavault软件之前,建议你参考软件的用户手册或者教程,以了解软件的各种功能和用法。这将帮助你更好地使用和掌握该软件。 总结起来,libero_soc_megavault软件是一款用于FPGA设计的专业开发工具,安装步骤包括获取软件安装包、解压缩文件、运行安装向导或者安装脚本、按照指示进行安装,并最后通过软件图标启动软件。在安装完成后,你可以使用libero_soc_megavault软件进行FPGA设计和开发。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值