GATK推荐的序列存储格式-uBAM

本文介绍了二代测序数据从fastq格式转换为GATK推荐的uBAM格式的过程。uBAM不仅包含序列和质量信息,还能存储更多实验相关数据。使用Picard工具,可以通过FastqToSam命令将fastq转换为uBAM,再通过SamToFastq将uBAM回转为fastq。
摘要由CSDN通过智能技术生成

欢迎关注"生信修炼手册"!

二代测序平台产生的数据通常用fastq格式进行存储,fastq 存储了我们最关心的序列和碱基质量的信息。就测序而言,这样的信息当然是足够了。但是对于分析而言,还缺少了一点信息。

给你一个fastq文件,你最多可以看出来样本名,测序平台,测序读长等基本信息,如果想知道测序类型(是WES, WGS 还是RNA-seq),  样本的采样信息,样本的分组信息,这些信息从fastq 文件是无法得到的。这些实验相关的数据,称之为metadata

uBAMFASTQ相比,处理存储了序列和碱基质量信息之外,还可以存储metadata信息。

GATK4中,数据预处理部分的示意图如下

可以看到,对于原始数据,有两种格式,一种就是我们常见的FASTQ; 另外一种就是uBAM。官方更加推荐使用uBAM格式。

如何从FASTQ转换得到uBAM格式呢?我们需要借助picatd工具。picard提供了一个FastqToSam功能,可以将序列转换成ubam格式。

GATK(Genome Analysis Toolkit)是一款强大的生物信息学工具,用于分析基因组数据。VariantFiltration 是 GATK 中的一个功能,用于对基因组变异进行过滤和评估。其中的参数 --genotype-filter-name 和 -G-filter-name 用于指定使用特定的过滤规则对基因型数据进行过滤。 使用这些参数时,你需要指定一个或多个过滤规则的名称。这些名称通常是在 GATK 的过滤规则文件(例如,GQT, GVCF, or BQSR)中定义的。你可以通过在命令行中指定这些文件来使用它们。 下面是一个基本的 GATK VariantFiltration 命令示例,使用 --genotype-filter-name 参数: ```bash gatk VariantFiltration --genotype-filter-name MyFilter \ -R reference.fasta \ -V input.vcf \ -O output.vcf ``` 在这个例子中,我们使用了名为 "MyFilter" 的过滤规则。你需要将 "MyFilter" 替换为你想要使用的实际过滤规则的名称。该命令会将变异数据经过过滤,并将过滤后的结果输出到 output.vcf 文件中。 同样,你还可以使用 -G-filter-name 参数来使用全局过滤规则。例如: ```bash gatk VariantFiltration -G GATKGlobalFilter \ -R reference.fasta \ -V input.vcf \ -O output.vcf ``` 在这个例子中,我们使用了名为 "GATKGlobalFilter" 的全局过滤规则。你需要将 "GATKGlobalFilter" 替换为你想要使用的实际全局过滤规则的名称。 请注意,具体的命令和参数可能会根据你的数据和需求而有所不同。在使用 GATK 进行 VariantFiltration 时,建议参考 GATK 的官方文档和示例,以确保正确使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值