欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
当前做人相关的基因组分析,包括全基因组WGS,全外显子WES以及目标区域测序TRS,基本上都采用GATK标准的Best Practise最佳实践指导。人的基因组分析与其他物种稍微有一些不同,处理下载参考序列,还需要下载已有信息,例如各种人类基因组计划累积的变异信息,这些信息可以用于先验的学习集,提高变异检测的准确性。因此,如果想使用GATK软件,首先就需要下载GATK使用的数据集。
基因组版本选择
由于人的染色体存在多个数据中心,并且有多次更新,因此,当前有多个命名以及多个版本,搞不清这些版本和命名,有时候会产生很严重的后果。因为不同的命名之间序列的ID不同,比如1号染色体,有些是chr1,有些直接就是数字1,不同版本之间存在坐标这件的不同,因为很多注释数据库对染色体有版本要求,不同版本之间需要坐标转换之后才能使用。
UCSC命名最简单,就是hg加数字,比如hg18,hg19和hg38这些版本比较常用;
NCBI的命名更复杂一些,是GRCH开头,然后数字,36,37,38等。
而ENSEMBL命名就更复杂了,只给出版本比如52,59,61,80,81,82等。
这三种命名方式有一个对应关系。如图所示。
hg18 = GRCh36 = ENSEMBL release_52
hg19 = GRCh37 = ENSEMBL release_59/61/64/68/69/75
hg38 = GRCh38 = ENSEMBL release_76/77/78/80/81/82
这里面使用最多的就是hg19和hg38的版本,不同版本基因组之间主要有哪些差别呢,理论上来说越大版本基因组,序列的准确性越高。但是这里面有一个坐标位置的问题。就是我们无法保证坐标完全一致,基因组上坐标修改一个位置,与之相关联的所有内容要发生变化,例如这个坐标已经与dbSNP的rs号相对应了,这也就是为什么虽然现在已经有了hg38,但是hg19这个版本使用依然非常广泛,就是因为大量的注释信息都是基于hg19的版本来做的,如果要切