基因大数据的集成分析

最新推荐文章于 2025-04-29 23:02:09 发布

原创

最新推荐文章于 2025-04-29 23:02:09 发布 · 1.6w 阅读

23 ·

CC 4.0 BY-SA版权

基因大数据的集成分析是解析遗传变异到疾病因果链的关键，涉及多层面信息整合，如基因组、表观基因组、转录组等。文章概述了集成分析的三个方面：风险位点检测及功能分析、基因多效性分析和孟德尔随机化因果推断，强调了多基因遗传结构、基因多效性与非编码区功能的重要性。通过实例展示了集成分析在神经质与重度抑郁症关联及血脂代谢物与复杂疾病因果关系研究中的应用，为精准医疗提供科学基础。

基因大数据的集成分析

胡湘红¹, 彭衡², 杨灿³, 张纵辉¹, 万翔¹, 罗智泉¹

1 深圳市大数据研究院，广东深圳 518172

2 香港浸会大学数学系，香港 999077

3 香港科技大学数学系，香港 999077

摘要：随着生物科技（如基因芯片和测序技术）的飞速发展，全世界已经积累了海量的数据。有效地整合和集成多层面和多维度的基因大数据，对于全方位解析从遗传变异到疾病发生的整个因果链条具有关键作用，可为个性化、精准医疗服务奠定科学的基础。从3个方面对基因大数据的集成分析进行综述：检测风险位点及其功能分析、基因多效性的分析、基于孟德尔随机化的因果推断。进一步结合具体的应用案例进行了阐述，最后对基因大数据的集成分析研究进行了总结以及展望。

关键词：GWAS ; 集成分析 ; 多基因效应 ; 基因多效性 ; 孟德尔随机化

640?wx_fmt=jpeg

论文引用格式：

胡湘红, 彭衡, 杨灿, 张纵辉, 万翔, 罗智泉.基因大数据的集成分析. 大数据[J], 2019, 5(4):67-88

HU X H, PENG H, YANG C, ZHANG Z H, WAN X, LUO Z Q.Integrative analysis for big data in genomics. Big Data Research[J], 2019, 5(4):67-88

640?wx_fmt=jpeg

1 引言

人类基因组计划（human genome project，HGP）以及人类遗传变异图谱在21世纪初宣告完成。这一里程碑式的事件拉开了大规模利用生物医疗数据研究复杂人类疾病的序幕。随着生物科技（如基因芯片和测序技术）的飞速发展，全世界的研究者已经积累了多层面、多维度的基因大数据。这些数据覆盖从遗传变异到生命体表征的各个层面的数据，包括基因组（genome）层面、表观基因组（epigenome）层面、转录组（transcriptome）层面、蛋白质组（proteome）层面、代谢组（metabolome）层面以及生物体层面的表型特征（phenome），成为科学家研究复杂疾病的宝贵资源。无疑，基因大数据将对现有医学研究、个体化医疗产生颠覆性的影响。

全基因组关联分析（genome-wide association studies，GWAS）在基因大数据的研究中处于基础性地位。以GWAS为基础的大量研究项目的开展，开启了人类对各种复杂疾病的遗传结构的探索。GWAS采用高通量的方式获取全基因组的上百万个遗传变异位点——单核苷酸变异（single-nucleotide polymorphsim， SNP），并对这些变异点和复杂疾病或性状进行关联分析，找出风险变异点。截至2019年4月，已经公开发表的GWAS研究达3 923个，发现了约134 705个与疾病或性状显著关联的变异位点（显著性检验的p值<5×10^-8）。大部分的研究结果可在全基因组关联分析数据库中获得。这些结果将基因组和生物体表型组联系起来，极大地增进了人们对生物体表型的遗传学结构的认识。随着GWAS研究越来越受到重视，大规模的研究也在不断推进。例如，英国生物样本库（UK Biobank）成立于2006年，迄今为止，UK Biobank收集了约50万人的DNA测序数据以及大量与疾病和健康相关的表征数据，包括生理指标、生活方式、血液和尿液采样、大脑和身体成像数据以及参与者的医疗记录、电子病历数据等。这种从基因测序数据、表征数据到医疗成像数据和电子病历数据的多维度积累为科学家进行复杂疾病的研究提供了数据支撑，将助力于个性化的精准医疗服务。

尽管GWAS的研究取得了令人瞩目的成绩，然而单独的GWAS研究往往只考虑基因组层面与表型特征的信息，忽略了生命过程中其他层面的相关信息，无法贯穿从遗传变异到表型特征的整条证据链。因此需要整合和集成从遗传变异到生命体表征的多组学层面的信息并进行分析，从而全方位解析从遗传变异到表型特征的整个因果链条。这里的多组学层面包括基因组层面、表观基因组层面、转录组层面、蛋白质组层面、代谢组层面以及生命体表征组层面的表型特征（如图1所示）。伴随着各项大型生物医疗国际项目的开展，这些多层面、多维度、高质量的基因大数据正在不断产生和积累。2012年9月完成的DNA元件百科全书项目（encyclopedia of DNA elements project，ENCODE项目）是继人类基因组计划后又一重要的突破性工程。该项目对大部分非编码序列（约占全基因组的98%）的功能进行了注释，例如“这部分序列与一种蛋白质结合”“这部分序列常被甲基基团标记”“这部分序列通常隐藏在组蛋白的包围中”。随之开展的表观基因组的图谱计划（roadmap epigenomics project）直接从人体的细胞系或组织中取样，并将其数据向公众开放。这些结果将为研究人类细胞系和组织的表观基因组功能发挥重要的作用。与此同时，2010年开始的基因型-组织表达（genotype-tissue expression， GTEX）项目于2013公开数据库，到目前为止收集了约714个捐献者53个人体组织的11 688个样本数据，用于研究不同组织中基因型与表达型的关系，完成了基因组到转录组的跨越，为科学家提供了宝贵的资源库。此外，现代核磁共振技术、质谱和色谱等技术的发展使得对大规模的生物体小分子的定量研究成为可能，这也大大促进了蛋白质组层面和代谢组层面研究的发展。目前已公布的蛋白质层面和代谢组层面的研究达80多项，产生了大量可公开获取的数据。

640?wx_fmt=jpeg

图1 多组学层面的数据

这些多层面、多维度、高质量的基因大数据为刻画完整的疾病产生的因果链条创造了条件，同时也促进了该领域集成分析方法研究的发展。本文总结了当前基因大数据的集成分析的一些研究进展，这些研究大部分基于多基因遗传结构（多个基因影响一个性状）的共识以及以下两方面的科学发现：遗传变异的多效性（一个变异影响多种表型）以及非编码遗传变异的调控功能。具体地，本文对基因大数据的集成分析从以下3个方面进行综述：检测风险位点及其功能分析；基因多效性的分析；基于孟德尔随机化的因果推断。本文进一步结合具体的应用案例进行分析，最后对基因大数据的集成分析研究进行了总结以及展望。

2 基因大数据集成分析的科学依据

2.1 多基因遗传结构

复杂性状或疾病的多基因遗传结构是指复杂性状和疾病的变异是由多个基因共同影响的。尽管科学家在GWAS研究中发现了很多显著的变异位点，但是这些显著的变异位点只能解释性状方差的小部分，这个现象通常被称为“丢失的遗传率（missing heritability）”。以人体身高这一性状为例，根据以往对家庭谱系的研究，已经存在的广泛认识是人类身高的遗传率达70%~80%等。多基因遗传结构的存在使得GWAS研究面临着诸多挑战：第一，多基因结构意味着单个基因对性状的贡献是微弱的，受GWAS样本量的限制，单个GWAS研究很难找到遗传变异中微弱的信号点；第二，常用的基于稀疏和强信号假设的建模方法在这里不再适用。图2中横轴为染色体编号，每个SNP按染色体上的位置排列，纵轴为对应SNP的GWAS统计检验的-lg(p)。图中顶部的点对应-lg(p)>30的SNP。

640?wx_fmt=jpeg

图2 身高的曼哈顿图

基于多基因遗传结构的假设，线性混合模型（LMM）开始受到关注。以遗传率的估算为例，假设已经获取n个个体的M个SNP的标准化后的基因测序数据G∈R ^n×M，对应的表型（如身高）数据y∈R ^n×1，X∈R ^n×p表示 p个协变量信息（如年龄、性别和一些用以控制群体分层的主成分数据），它们之间的关系可以由线性混合模型来建立，具体如下：

640?wx_fmt=png