如何下载生物数据(三):GATK数据下载

欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
当前做人相关的基因组分析,包括全基因组WGS,全外显子WES以及目标区域测序TRS,基本上都采用GATK标准的Best Practise最佳实践指导。人的基因组分析与其他物种稍微有一些不同,处理下载参考序列,还需要下载已有信息,例如各种人类基因组计划累积的变异信息,这些信息可以用于先验的学习集,提高变异检测的准确性。因此,如果想使用GATK软件,首先就需要下载GATK使用的数据集。

基因组版本选择
由于人的染色体存在多个数据中心,并且有多次更新,因此,当前有多个命名以及多个版本,搞不清这些版本和命名,有时候会产生很严重的后果。因为不同的命名之间序列的ID不同,比如1号染色体,有些是chr1,有些直接就是数字1,不同版本之间存在坐标这件的不同,因为很多注释数据库对染色体有版本要求,不同版本之间需要坐标转换之后才能使用。

UCSC命名最简单,就是hg加数字,比如hg18,hg19和hg38这些版本比较常用;
NCBI的命名更复杂一些,是GRCH开头,然后数字,36,37,38等。
而ENSEMBL命名就更复杂了,只给出版本比如52,59,61,80,81,82等。
这三种命名方式有一个对应关系。如图所示。

hg18 = GRCh36 = ENSEMBL release_52

hg19 = GRCh37 = ENSEMBL release_59/61/64/68/69/75

hg38 = GRCh38 = ENSEMBL release_76/77/78/80/81/82
这里面使用最多的就是hg19和hg38的版本,不同版本基因组之间主要有哪些差别呢,理论上来说越大版本基因组,序列的准确性越高。但是这里面有一个坐标位置的问题。就是我们无法保证坐标完全一致,基因组上坐标修改一个位置,与之相关联的所有内容要发生变化,例如这个坐标已经与dbSNP的rs号相对应了,这也就是为什么虽然现在已经有了hg38,但是hg19这个版本使用依然非常广泛,就是因为大量的注释信息都是基于hg19的版本来做的,如果要切

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: kirc数据集是一个用于肾透明细胞癌(KIRC)的基因表达谱分析的数据集,可以从The Cancer Genome Atlas(TCGA)官网下载。该数据集包括KIRC患者的RNA测序数据、临床信息和生物样本信息等内容。 kirc数据下载下来的文件格式是TCGA Workflow导出的Level 3 RNAseqV2数据,通常为.bam或者.cas文件。这些文件包含了每个患者的基因表达谱数据,可以通过一系列的数据预处理和分析方法,来研究该癌症基因调控及其在肾癌发生和发展中的作用,为临床诊疗提供更准确和个性化的治疗方案。同时,这些数据也可以被用于深度学习等计算机方法的训练和应用,进一步挖掘新的癌症生物学知识和临床信息。 ### 回答2: kirc数据集是针对肾透明细胞肿瘤(kidney renal clear cell carcinoma)的一个数据集,被广泛应用于乳腺癌预测、癌症分类等领域。该数据集可以从TCGA数据下载获得,下载下来的文件格式是TCGA的官方标准格式,即TCGA数据共享标准(TCGA Data Sharing Standards),也就是TCGA形式的数据,主要包括.bam和.vcf格式的文件。其中,.bam文件是由测序机输出的原始测序数据,是一个二进制文件,主要存储着测序后的原始序列数据;.vcf文件含义为Variant Call Format,是一个描述SNP(single nucleotide polymorphism)和变异的文件格式,从而对样本进行基因组学分析。 在下载kirc数据集后,处理这些数据需要使用一些数据处理软件或程序,如SAMtools、BCFtools、GATK等等,一些研究人员还应用了Python语言和R语言进行数据处理和分析。对于初学者来说,可能需要先了解这些基于生物信息学的工具和软件,以及相关的应用知识,才能更好地上手kirc数据集的研究。 总之,kirc数据下载下来的是TCGA数据共享标准格式的数据文件,主要包括.bam和.vcf格式的文件,需要使用相关生物信息学工具和软件进行数据分析和处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值