遗传变异信息分析流程解析
基于[Lappalainen T](Lappalainen T, Scott AJ, Brandt M, Hall IM. Genomic Analysis in the Age of Human Genome Sequencing. Cell. 2019;177(1):70-84. doi:10.1016/j.cell.2019.02.032)的整理,变异信息分析大致框架为 变异检测 -> 在基因组中对应的基因或调控元件 -> 涉及的功能 + 加疾病表型信息 - > GWAS关联分析 + 变异注释,最后整合所有结果并尝试阐释疾病发生的机制,提供一个合理的解释,为药物开发提供理论支持。常见的分析思路如下:
-
基于测序数据进行变异检测
-
变异信息分型+定相
-
变异注释,以及变异导致对基因行驶功能的影响
-
基于表型信息,与突变信息的关联分析,找到影响疾病发病的高可信突变
-
罕见突变分析(人群过滤)(低频有害)
人类基因组中含有大量的遗传突变或随机突变,常见的类型有SNV/INDEL/CNV/SV等。
但去阐释疾病大概会落脚到某一个通路或者基因上,所以对变异的功能注释便极为重要。
SNP与InDel注释
大致的工作流如下:
-
注释:使用Annovar中不同数据库对变异信息进行注释
-
基因区域注释:和参考基因组注释信息比较+注释库
-
突变导致功能注释:是否导致蛋白质结构或行驶功能异常
-
是否导致整个代谢链条中断或异常(计量效应,Aa)
结构变异注释
对于CNV及CNV的注释,更看重涉及片段的整个基因的计量效应,大致的工作流如下:
-
类型判断与注释
-
断点识别+CNVisi注释DUP/DEL
-
基因区域注释:使用Annovar中注释断点所在位点
-
突变导致功能注释:是否导致蛋白质结构或行驶功能异常
-
是否导致整个代谢链条中断或异常(计量效应,DUP/DEL)
疾病关联分析的现实挑战
-
一个氨基酸的变化是否真正改变了蛋白质的结构和功能是非常困难的,尤其是剪切区域,不同的模型采用不同的策略
-
基因剂量的影响方式甚至比蛋白质结构更多样化,转录和转录后调控都很复杂
-
目前暂无法结合组织、细胞类型和细胞状态特异性信息进行分析,因为发育阶段和环境条件对特定基因的转录和翻译影响很大
-
基因表达网络调控在未来是解释基因剂量效应或者突变解释的重要工具,尤其是罕见突变,但目前的信息不够全面
引用
-
Lappalainen T, Scott AJ, Brandt M, Hall IM. Genomic Analysis in the Age of Human Genome Sequencing. Cell. 2019;177(1):70-84. doi:10.1016/j.cell.2019.02.032
-
Nakagawa H, Fujita M. Whole genome sequencing analysis for cancer genomics and precision medicine. Cancer Sci. 2018;109(3):513-522. doi:10.1111/cas.13505
ion medicine. Cancer Sci. 2018;109(3):513-522. doi:10.1111/cas.13505