大豆泛基因组研究进展-文献精读57

最新推荐文章于 2024-10-02 18:59:47 发布

让学习成为一种生活方式

最新推荐文章于 2024-10-02 18:59:47 发布

阅读量1.5k

点赞数 36

分类专栏：泛基因组基因组生物信息学文章标签：基因组

本文链接：https://blog.csdn.net/weixin_44874487/article/details/142681490

版权

生物信息学同时被 3 个专栏收录

152 篇文章

订阅专栏

基因组

101 篇文章

订阅专栏

泛基因组

4 篇文章

订阅专栏

Frontiers of soybean pan-genome studies

植物泛基因组学及其应用-文献精读56（地表最强综述）

摘要

人工驯化为农业发展提供了原始驱动力，也深刻地改变了许多动植物的遗传背景。伴随组学大数据理论和技术体系的发展，作物基因组研究已迈入泛基因组时代。借助泛基因组的研究思路，通过多基因组间的比较和整合，能够评估物种遗传信息上界和下界，认知物种的遗传多样性全貌。此外，将泛基因组与染色体大尺度结构变异、群体高通量测序及多层次组学数据相结合，可以进行更为深入的性状-遗传机制解析。大豆(Glycine max (L.) Merr.)是重要的粮油经济作物，大豆产能关乎国家粮食安全。对大豆遗传背景形成、重要农艺性状关键位点的解析，是实现更高效的大豆育种改良的前提。本文首先对泛基因组学的核心问题进行了阐述，解释了从头组装/比对组装、迭代式组装和图基因组等泛基因组研究策略的演变历程和各自特征；接着对作物泛基因组研究的热点问题进行了概括，并且以大豆为例详细阐释了包括类群选择、泛基因组构建、数据挖掘等方面在内的泛基因组研究的开展思路，着重说明染色体结构变异在大豆演化/驯化历程中的贡献及其在农艺性状遗传基础挖掘上的价值；最后讨论了图泛基因组在数据整合、结构变异计算方面的应用前景。本文对作物泛基因组未来的发展趋势进行了展望，以期为作物基因组学及数据科学研究提供参考。

近20年来基因组学经历了爆发式的发展，如今已经成为生命科学领域研究的重要范畴。基因组承载着生命体的基本遗传信息，一个高质量的基因组是展开深度遗传学及分子功能研究的先决条件。然而，随着基因组学理论体系的延展、测序技术的革新、数据维度和数据需求的不断丰富，研究者对基因组本身的认知经历了不断的扩充与迭代。将单一的参考基因组作为特定物种或者类群基因组的“标准品”，其代表性和蕴含的生物多样性始终是有限的。物种内、种系间的差异是解析种群演化和表型特征形成的关键，不能被忽视。针对这些问题，研究人员不断探索新的研究方法与思路，这此过程中考虑多个代表性基因组比较与整合的泛基因组学(pan-genomics)框架得以建立，成为现今研究的热点方向。

作物分子设计育种是解决国家粮食安全问题的重要手段，而高质量的作物基因组是遗传学家、育种家认识改造作物的关键基础。作物基因组演化存在诸多特征。一方面，植物基因组中基因组序列重复、基因组加倍、多倍化等事件更为频繁，使得植物在染色体水平上积累了更多的结构差异[1]；另一方面，作物驯化改良是一致性和多样化兼有的过程，尽管品种/品系之间具备高度的可比性，但单个品种/品系的基因组并不能代表整个作物的遗传背景。因此研究者认识到，使用单个基因组作为参考开展作物遗传与功能基因组研究，很可能低估研究对象遗传分化的程度并遗失诸多重要的遗传变异[2,3]。以上特征表明作物是开展泛基因组研究的良好素材，而泛基因组也是深度解析作物基因组多样性、挖掘农艺性状相关位点的重要方法。作为传统基因组形式的补充和扩展，泛基因组现今已成为作物基因组图谱绘制和遗传解析的常用手段[4,5]。

大豆(Glycine max)是我国重要的作物和经济物资，由于需求的激增导致供给不足，国内大豆不得不大量依赖进口。改良种质，培育高产、稳产、高品质、适应不同农田环境的大豆，是提高大豆产量的关键。中国拥有最丰富的大豆遗传资源以及多样的栽植生态区系，采用泛基因组的研究方法，厘清大豆的遗传变异，发掘新的或未被充分使用的遗传位点，结合分子设计育种等手段，对于推进中国大豆品种的选优改良，具有重要意义。

1 泛基因组概述

1.1 泛基因组概念的发展

泛基因组(pan-genome)的词缀“pan”来源于希腊语，意为“全”、“一切”。泛基因组通常意义上是指代一个物种/类群所有基因组，或代表性基因组的总和。在研究的早期，测序技术产出的数据质量有限，测序成本高昂，在许多真核生物中获得单个高质量组装基因组是十分困难的事情。因此，往往用单个或少数高完成度的基因组作为一个物种或是一个类群的代表或参考。而在一些原核生物中，由于基因组规模小，获取基因组相对容易，研究人员通常可以获得同一个类群中多个个体的完整基因组，并且开展多基因组间的整体比对。这类工作最早由Tettelin等[6]于2005年在无乳链球菌(Streptococcus agalactiae)中开展，是泛基因组研究的雏形。

然而泛基因组的概念推广到更复杂的动植物等真核生物类群并没有那么迅速。首先，通常情况下真核生物基因组相比细菌要大得多，这意味着基因组测序的成本和后续组装消耗的算力、时间资源都很巨大。其次，真核生物基因组更为复杂，多倍体、高重复序列、高杂合度等情况都会增加基因组组装的难度[7⇓⇓~10]。并且由于基因组成分复杂，有大量非基因区序列、重复序列的存在，使得泛基因组组分评估及基因组差异的鉴定也不易进行[11]。近几年，随着测序技术的发展，测序成本下降，比较基因组学手段不断完善，这些问题才逐渐得到解决。从原核生物到真核生物，泛基因组的范畴也从包含全体注释基因扩展到包含所有基因组序列。而伴随组学研究维度的开拓，泛组学概念的应用也从基因组层面延伸到如泛转录组、泛三维基因组等层面[12,13]。

1.2 泛基因组研究的核心问题

泛基因组研究的核心问题，是对物种/类群基因组完备性或者代表性遗传信息的描述[14]。与群体遗传学类似，泛基因组的研究对象并非单一个体。然而群体遗传学层面的基因组研究侧重于发掘变异位点及遗传多态性，即个体间的异质性。而个体间的异质性和同质性，即共享与差异的基因组成分，均为泛基因组研究描述的内容。通过泛基因组研究，人们能了解一个物种/类群的完整基因组架构，并借此推断构成这一物种/类群的核心遗传信息(即基因组下界)，以及物种/类群的遗传分化程度(即基因组上界)。

此外，泛基因组研究涉及基因组间的比较和整合，其中对不同基因组间染色体结构变异(structural variation，SV)的挖掘和处理也成为研究的重要环节[15]。相较于单核苷酸多态性(single nucleotide polymorphism，SNP)，结构变异的长度不定，变异类型更为复杂，处理难度也更高。同时，结构变异引起的基因组改变更为剧烈，更易引起物种间表型特征的多态性。这类变异在基因组学研究的早期，因为技术和成本的限制，很难作为重要的研究方向，而如今则成为泛基因组研究聚焦的重点之一。对于染色体结构变异的处理，也体现了泛基因组实践策略的不同发展阶段。

2 泛基因组实践策略及研究实例

2.1 从头组装/比对组装基因组

泛基因组构建需要对物种/类群的代表性个体进行仔细筛选，进行基因组测序。获得数据后，最常规的策略是分别对每个个体进行基因组从头组装，将单独组装的基因组数据集作为泛基因组[16⇓~18]；或者将测序数据比对到一个高质量的参考基因组上，并将无法比对的数据分类出来单独进行组装，作为现有参考基因组的扩展集，形成“参考基因组+额外序列”，即“共有序列+染色体差异序列”的形式[19⇓~21]。

这类方法在实践层面上最为简单，在泛基因组研究的早期有较多应用，但也存在诸多问题。单独基因组形式的泛基因组通常包含过多冗余的数据量和数据维度。而“参考基因组+额外序列”的方式对于泛基因组的组织并不直观有效。因此研究者需要探索更为高效合理的泛基因组数据组织形式。

2.2 迭代式泛基因组

迭代式基因组是一类经过实践的参考基因组整合方法。该类方法从一个参考基因组(往往是高质量或已被广泛认可的基因组)开始，依次将其他样品的测序读段比对到参考基因组上，并且直接修改当前参考基因组，在恰当的位置添入非冗余的染色体差异序列。参考基因组在这个过程中不断被迭代升级，最终成为一个兼容多基因组状态的线性基因组[2,22]。这类方法主要在甘蓝中得以实践，获得了99 Mb的额外序列，并且绘制了多个体来源整合的染色体变异图谱[22]。

迭代式泛基因组相较于从头组装的泛基因组整合度高，不引入额外序列，并且类似传统的线性基因组，更易于理解。但实现过程中对于原有基因组的覆盖将不可避免丢失许多单独基因组状态下的特征。因此，迭代式组装尽管减少了信息的冗余，也同时存在大量的信息丢失[11]。

2.3 基于图论的泛基因组

基因组学的快速发展对泛基因组提出了更全面的数据结构诉求。泛基因组除了提供个体间共享和特异序列信息的记录存储外，还承担着数据的调用、检索、可视化、比对等多种功能。基于图论的基因组(即图基因组)是满足以上需求的有效形式。该方法首先选择一个基因组作为本底，通过读段比对或者染色体共线性比较的方式，获得各个样品相对于参考基因组的变异位置及变异内容。最后依照上述信息，采用图论的方式将参考序列与变异序列以节点方式存储，并且用边代表他们的连接关系[2,4,11,23]。

尽管图基因组并不像传统线性基因组那样直观，但其最大程度压缩了冗余信息，并且保留了有义信息。此外图基因组可以灵活地进行数据组合与还原，保证了组学数据的可读性。对于基因组较大，变异复杂的真核生物，图基因组是更适合的方法，也成为现在的趋势[24⇓⇓⇓~28]。此外，图基因组更兼容计算机的I/O形式，能够更快、更有效地进行基于二代测序数据的比对和结构变异检测。目前，图基因组是泛基因组数据存储、调用、展示等综合性能最佳的形式，越来越多的基因组分析工具开始向该方向发展，如vg (Variation Graph toolkit)[26]、GraphTyper2[25]、Giraffe[29]、odgi (Optimized Dynamic Genome/Graph Implementation)[30]、pggb (PanGenome Graph Builder)[31]等。一些经典的工具，如HISAT2[32]也有此方面功能的拓展。图基因组在泛基因组，尤其是植物泛基因组学领域，目前已经有了很多实践，逐渐成为研究的主流方法。

2.4 作物泛基因组研究

2011年，Gan等[33]对拟南芥(Arabidopsis thaliana)自然群体材料的基因组比较是植物泛基因组研究的开端。该工作从头组装了18个拟南芥的单拷贝序列基因组，通过比较发现了相对参考基因组共有28.3 Mb非冗余变异序列，平均每个样品4.5~7.6 Mb。此后泛基因组研究逐渐在植物中兴起，并且在近10年间高速发展。目前许多植物，特别是作物都完成了从单一参考基因组到泛基因组的整合与跨越[20,22,34⇓⇓⇓⇓~39]。早期植物泛基因组多采用从头组装/比对组装的策略进行构建，部分研究采用了迭代组装方式(表1)。在近期的研究中，从头组装结合图泛基因组已经成为主流的泛基因组研究策略(表1)。泛基因组研究在一定程度上揭示了作物物种内或近缘种间的基因组变异规模。对比一些研究结果可以得出，在不同植物类群的泛基因组中，核心基因家族占总基因家族数量的40%~70%，表明30%~60%的基因家族在物种内发生了获得/丢失的变异[16,17,19⇓⇓~22,40,41]。

Table 1 Case studies of plant pan-genome

类群	发表年份	样品数	测序方式	泛基因组构建策略	参考文献
拟南芥(Arabidopsis thaliana)	2011	18	二代测序	迭代组装+从头组装	[33]
野生大豆(Glycine soja)	2014	7	二代测序	从头组装	[17]
甘蓝(Brassica oleracea)	2016	9	二代测序	迭代组装	[22]
苜蓿(Medicago truncatula)	2017	15	二代测序	从头组装	[76]
二穗短柄草(Brachypodium distachyon)	2017	54	二代测序	从头组装	[16]
水稻(Oryza sativa)	2018	3010	二代测序+三代测序	比对组装	[21]
野生及栽培水稻(O. rufipogon, O. sativa)	2018	66	二代测序	比对组装	[42]
水稻属及亲缘物种(Oryza, Leersia)	2018	13	三代测序+二代测序	从头组装	[18]
辣椒属(Capsicum)	2018	168	二代测序	比对组装	[77]
芝麻(Sesamum indicum)	2018	5	二代测序	比对组装	[78]
番茄及野生亲缘种(Solanum section Lycopersicon)	2019	725	二代测序	比对组装	[19]
向日葵(Helianthus annuus)	2019	287	二代测序	比对组装	[20]
油菜(Brassica napus)	2020	8	三代测序	从头组装	[43]
野生及栽培大豆(Glycine subgenus Soja)	2020	29	三代测序	从头组装+图基因组	[39]
大麦(Hordeum vulgare)	2020	20	二代测序+三代测序	从头组装	[79]
番茄及野生亲缘种(Solanum section Lycopersicon)	2020	14	二代测序+三代测序	比对组装(泛结构变异)	[45]
鹰嘴豆(Cicer arietinum)	2021	3366	二代测序	比对组装	[80]
棉花及亲缘种(Gossypium)	2021	1961	二代测序	比对组装	[81]
野生及栽培高粱(Sorghum bicolor)	2021	13	三代测序	从头组装	[82]
玉米(Zea may)	2021	26	三代测序	从头组装	[83]
水稻(O. sativa)	2021	33	三代测序	从头组装+图基因组	[34]
野生及栽培萝卜(Raphanus)	2021	11	三代测序	从头组装+图基因组	[84]
黄瓜 (Cucumis sativus)	2022	12	三代测序	从头组装+图基因组	[38]
水稻属(Oryza)	2022	251	三代测序	从头组装+图基因组	[85]
棉花属(Gossypium)	2022	10	三代测序	从头组装+图基因组	[86]
多年生大豆(Glycine subgenus Glycine)	2022	6	三代测序	从头组装	[62]
野生及栽培马铃薯(Solanum section Petota)	2022	44	三代测序	从头组装	[87]
番茄(Solanum lycopersicum)	2022	32	三代测序	从头组装+图基因组	[35]
野生及栽培谷子(Setaria)	2023	110	三代测序	从头组装+图基因组	[40]
茶(Camellia sinensis)	2023	22	三代测序	从头组装+图基因组	[41]
柑橘属(Citrus)	2023	12	三代测序	从头组装+图基因组	[36]
番茄及野生亲缘种(Solanum section Lycopersicon)	2023	13	三代测序	从头组装+图基因组	[85]
玉米(Z. mays)	2023	12	三代测序	从头组装	[88]
野生及栽培黍(Panicum miliaceum)	2023	32	三代测序	从头组装+图基因组	[46]

3 大豆泛基因组研究

3.1 大豆属泛基因组组成

2014年野生大豆的泛基因组研究是植物中第一项明确泛基因组概念的工作[17]。然而其数据质量、全面性和挖掘深度都受到了时代和技术的制约。2020年一项包含大豆属Soja亚属的野生、栽培大豆在内，26个大豆种质材料基因组、转录组及近3000份种质材料重测序的工作则更精准地描绘了大豆的遗传变异图谱，系统阐述了染色体结构变异在大豆演化/驯化中发挥的作用[39]。该研究从2898份来自世界大豆主要栽植区的种质资源中共检测到约3千万个单核苷酸变异位点。根据系统发育关系，挑选出26个代表性的种质，进行基因组从头组装和泛基因组构建。这26个种质按类群划分包括野生、农家种、栽培品种，按用途划分包括骨干亲本及区域主栽品种等，从头组装基因组大小在992.3~1059.8 Mb之间，样品序列锚定在染色体上的比率平均为99.0%，二代测序比对回自身基因组的比对率平均在99.4%。基因组重复序列注释检测到大豆基因组的平均重复序列比例为54.4%，蛋白编码基因注释表明大豆泛基因组样品平均注释基因数量为56,522，BUSCO检验平均达到95.6%。以上结果符合大豆基因组的基本特征，说明基因组组装注释质量达到高水平。

对26个大豆从头组装基因组，连同已经报道的ZH13的基因组进行基因家族聚类，所有基因被分入57,492个基因家族，这与之前野生大豆中报道的数量接近[17]。对不同品种数量构建的泛基因、核心基因家族数目的抽样统计显示，泛基因组的数量在25个样品时到达了平台期，意味着该研究的取样对于大豆基因组已具有足够的代表性。将基因家族按样品出现的频数作为划分，得到大豆的核心基因家族(频数为27) 20,623个，松弛核心基因家族(频数为25、26) 8163个，非必需基因家族(频数为2~24) 28,679个，私有基因家族(频数为1) 27个。由此得出，大豆泛基因组中核心(及松弛核心)基因家族占总基因家族的50.1%，非必需及私有家族(可变家族)的数量占49.9%。该结果符合以往研究得出的植物中30%~ 60%的基因家族为可变家族的认知[16,17,19⇓⇓~22,40,41]。

3.2 大豆属泛基因组变异

泛基因组包含的变异是否能反应物种群体水平的变异，是值得探讨的问题。以ZH13基因组作为参考，结合26个泛基因组样品和已报道的WM82及W05的基因组数据，在29个大豆基因组上检测到14,604,953个SNP和12,716,823个Indel (≤50 bp)[39]。该数据与2898份重测序的变异数据进行比较，尽管SNP数量比2898份重测序要少，但是二者分布特征相似。以500 kb区间为窗口进行全基因组扫描，过滤2898份重测序中次等位基因频率(minor allele frequency，MAF)<0.01的位点后，其与29个基因组中SNP数量的皮尔森相关性系数为0.553。此外π、dN/dS等群体遗传学特征值在29个基因组与2898份重测序数据间同样具有很高的相关性。这表明泛基因组对于变异的检测具有群体水平的代表性。

大尺度结构变异(>50 bp)采用短序列测序方式往往很难鉴定。通过基因组比对的方式，以ZH13为参考在28个大豆基因组中检测到共计776,399个结构变异，其中723,862个PAV、27,531个拷贝数变异(copy number variation，CNV)、21,886个易位事件、3120个倒位事件[39]。PAV的长度主要分布在1~2 kb，易位长度主要分布在10~30 kb，倒位长度主要分布在100~200 kb。CNV的变化倍数主要在2~3倍。泛基因组中检测到的723,862个PAV共计4.71 Gb序列长度，平均每个样品167.09 Mb，占基因组大小约16%。比较每个样品的获得与缺失序列长度之差，及其与ZH13基因组大小之差，发现二者具有很高的相关性，说明PAV是造成样品间基因组大小差异的主要来源。在大豆中结构变异在基因组重复序列区域显著富集，其中78.5%的PAV来自于DNA重复。对番茄(Solanum lycopersicum)泛基因组研究发现84%的序列缺失与76%的序列插入变异与重复序列重合(>100 bp)[45]。对黍(Panicum miliaceum)的泛基因组研究发现PAV与TE的重合比例在70%左右[46]。这些结果暗示一些植物中序列重复事件可能是结构变异发生的重要驱动力，进而导致物种内基因组大小的波动。

3.3 大豆属图泛基因组构建

大豆是首个实践了图泛基因组构建的植物，为后续作物的泛基因组研究开拓了新思路(图1A)。构建图泛基因组，需要对结构变异数进行合并和过滤，一方面降低构建图基因组的计算负担，另一方面减少最终图基因组的复杂度和假阳性。在29个大豆基因组中检测到776,399个结构变异，根据位点和类型进行合并，非冗余结构变异总数随样品增加而增加，最终趋于稳定，得到共计124,222个非冗余结构变异位点[39]。与此同时，共有的结构变异最终收敛到130个。野生大豆相较于栽培大豆，私有结构变异所占的比例更大。

A：图泛基因组研究基本流程，包括群体测序筛选代表性样品、结构变异分析、图泛基因组构建、群体结构变异检测等；B~E：泛基因组视角下的大豆农艺性状、演化历程遗传机制认知，包括基因获得/缺失与种皮亮度(B)、基因融合与E3基因多态性(C)、染色体重排与种皮颜色(D)、结构变异对基因表达调控与种质分布(E)；F：异源多倍体大豆的冗余基因丢失与亚基因组偏好性。

此外，研究表明将结构变异中重复序列占总长度90%的条目过滤，是有效的数据压缩、降低错误率的策略。Liu等[39]采用vg工具，以过滤后的结构变异数据为输入，ZH13基因组为底盘基因组，构建可用于检索和二代数据比对的大豆图泛基因组索引文件。将2898个大豆样品重测序数据比对到图泛基因组上，共计检测到55,402个结构变异。采用图泛基因组检测结构变异的精确率、召回率及F-score分别为0.94、0.75和0.83，表明图泛基因组结合群体二代测序数据是作物中进行大规模结构变异检测的可行方法。图泛基因组流程检测的结构变异N50为659/595 bp(缺失/插入)，远高于GATK流程的3/3 bp，说明图泛基因组流程对于大尺度结构变异检测具有很好的效力。相对于28个基因组中检测到的变异，在约3000份群体水平找到3584个新的结构变异，占总变异数的6.5%，并且这些变异的出现频率较低。野生大豆中检测到的已有和新结构变异的数量均明显高于农家种和栽培大豆。水稻中相似研究检测到的新结构变异占总变异数的16.4%[34]，但该研究的图泛基因组构建仅针对栽培稻进行。这也侧面反应出作物的野生种可能持有更丰富的变异类型，在作物泛基因组研究中加入野生类群可以很好地提升遗传变异的覆盖度。

3.4 泛基因组助力大豆演化/驯化遗传基础

GWAS分析是检测与表型关联的遗传变异的有效手段，而群体水平检测的结构变异同样能够辅助农艺性状相关位点的挖掘(图1B)。大豆种皮亮度是一个重要的性状，以往研究报道其与一种大豆疏水性蛋白(HPS)的积累有关[47]，但具体相关的基因仍未明确。Liu等[39]以图泛基因组检测的结构变异为基因型，对种皮亮度表型进行了GWAS分析，在15号染色体上定位到一个信号区间。其中一个10 kb的PAV包含了一个编码HPS结构域的基因，并造成该基因在品种间的获得/缺失。表型统计发现，存在该10 kb序列的样品种皮光亮的比例更高，说明该PAV是控制大豆种皮亮度的遗传位点之一。

位于基因区的结构变异可能造成基因开放阅读框(open reading frame，ORF)的改变，进而导致功能的丢失或分化。其中结构变异造成的转录本通读是一种较为特殊的情况，即由于序列丢失导致原本独立转录的基因融合为一个转录本。转录本通读引起的基因融合在基因进化过程中起到重要作用[48]。依赖大规模的泛基因组数据，不仅能确认已有报道的等位基因，也能鉴定包括融合基因在内的基因新结构(图1C)，例如大豆开花相关的主效基因E3[49]。自然状态下，E3以复等位基因的形式存在[50]。26个从头组装基因组的注释基因与ZH13的E3进行比较，可以找到一个从E3第3个内含子开始的13.3 kb缺失。该变异造成了其中一个基因(SoyZH13_ 19G210500)的完全丢失[39]。RNAseq数据显示该变异除了导致E3的最后一个外显子及SoyZH13_ 19G210500的缺失外，还造成了E3和SoyZH13_ 19G210600的转录本读通。此外，该变异还造成了E3在缺失最后一个外显子后获得了一个额外的外显子。PCR片段测序验证了E3与SoyZH13_19G210600的基因融合事件，以及外显子改变事件是真实存在且相互独立的。泛基因组挖掘并验证了E3基因由结构变异产生的大量多态性，包括基因融合与ORF改变等，这可能是塑造大豆区域适应性分化的重要原因。

大豆的许多性状控制遗传位点，由于变异类型复杂、涉及基因多而难以被克隆[17,51⇓⇓~54]。大规模从头组装的基因组使得这类解析变得可能(图1D)。大豆种皮颜色相关的I位点是受驯化位点[54,55]，使大豆种皮从黑色转变为黄色。该位点为一系列异黄酮代谢途径中查尔斯酮合成酶(CHS)基因组成的基因簇，存在同源依赖的基因沉默(homology dependent gene silencing，HDGS)机制，调控CHS基因的表达[56⇓~58]。Liu等[39]在29个大豆基因组中调查种皮颜色的表型以及I位点，发现4个野生大豆和农家种SoyL02表现为黑色种皮，其余栽培大豆均为黄色种皮。I位点及周边的SNP构建系统发育树发现黑或黄种皮的样品各自聚类在一起。结构变异分析表明，相对于黑种皮类型基因组，一部分黄种皮样品的基因组上存在一个约100 kb的倒位以及CHS序列单元的重复，这与之前的报道相符[59]。然而另一部分样品中，虽然这个约100 kb的倒位变异不存在，仍然表现出黄色种皮。尽管如此，其上有一段约23 kb的序列发生了重复，并且插入到其后的CHS反向重复基因簇中，而这很可能导致了双交换事件并造成周围CHS单元的假基因化。因此，I位点周围的染色体变异得到完整的解析，而调控机制有待于进一步探索。

基因表达可能受到基因附近调控区序列变异的影响，进而导致农艺性状的变化。泛基因组结合转录组的研究策略能够深入挖掘由染色体结构变异导致的表达量差异，从而定位农艺性状的候选基因和变异(图1E)。缺铁萎黄是大豆在石灰土中种植时常见的病症。Lin等[60]的研究已定位到若干与铁离子利用效率相关的QTL位点，其中一个位于14号染色体。该QTL中存在一个注释为铁/锌离子调控转运蛋白的基因SoyZH13_14G179600，其5′启动子区在泛基因组中检测到一个1.4 kb的PAV[39]。该PAV满足转座子DNA Mutator的序列特征[61]，并且可以将26个大豆种质分成两组：未发生序列缺失和发生序列缺失的类型。RNA-seq数据表明，后者相对前者具有更高的表达量。结合群体基因型数据和样品信息记录发现，1.4 kb序列缺失的样品主要分布在纬度更高的种植区，而未发生序列缺失样品分布在纬度较低的地理区域。中国不同地理区域的土壤pH不同，进而影响铁离子浓度。因此，区域差异可能是造成遗传分化的诱因。

3.5 多年生大豆泛基因组研究

大豆属除了分布于东亚地区的一年生大豆(Soja亚属)之外，还有约30个分布于澳大利亚的多年生大豆物种(Glycine亚属)。该类群虽然和栽培大豆分化较大，但是部分物种染色体数目与栽培大豆相同，可能是栽培大豆潜在的遗传改良基因资源库，具有研究价值。2022年，一项针对Glycine亚属6个物种(5个二倍体和1个四倍体)的泛基因组研究系统地揭示了多年生大豆的基因组演化特征[62]。二倍体物种基因组大小为935.6~1373.8 Mb，平均大小1105 Mb左右，与Soja亚属大致接近，而基因组预测的蛋白质编码基因有70%在一年生大豆中缺失。多年生大豆相对栽培大豆而言，整体基因组变异幅度较大，遗传资源应用可能更侧重于定向基因改造或替换而非远源杂交。

以菜豆(Phaseolus vulgaris)为参考的比较基因组发现，多年生大豆相对于一年生大豆，基因组重排事件更少，染色体更为稳定。Zhuang等[62]研究计算了同源基因家族在一年生、多年生大豆中的Ka/Ks，发现52个家族在两个亚属中发生了净化选择；其中PHP、D14等是与开花、植株发育相关的基因，在两个亚属内计算Ka/Ks值低，但是在亚属间计算则有较高的Ka/Ks值，暗示这些基因可能参与了亚属间生活史策略的分化。

物种多倍化后，往往会发生冗余基因的丢失，导致亚基因组的分化，这种分化通常具有偏好性[63,64]。Zhuang等[62]分别比较四倍体多年生大豆G. dolichocarpa的两套亚基因组(AtAtDtDt)，发现多倍化前后两套对应基因组间染色体序列重排少相对保守，而多倍化后的基因组上发生了不同程度的基因丢失；在G. dolichocarpa中，Dt基因组上丢失了4019个基因，显著多于At基因组上丢失的3242个基因；且相较于丢失的基因，保留的基因在原基因组上的表达量更高。这些迹象表明，A亚基因组相对于D亚基因组具有明显的基因组优势(图1F)。

4 结语与展望

4.1 未来泛基因组发展

测序技术在过去的40年间飞速发展，积累了海量的数据，包括大规模群体测序和从头组装基因组。在此基础上，泛基因组学应运而生，并且受到学界越来越多的重视[4,14,65⇓⇓⇓⇓~70]，成为作物遗传育种研究的“利器”[35,40,71]。水稻、玉米、大豆、番茄等作物中不断有泛基因组研究涌现，这些结果或展示了不同研究类群框架下的基因组差异特征，或随着研究技术的提升给出了更高质量的组学参考数据。泛基因组作为一种基于比较基因组的研究方式，研究对象的选择尤为关键。应根据研究目的划定适合的类群范围，挑选代表性个体。泛基因组构建策略的选择应根据样品数量、测序成本以及最终期望呈现的数据结果综合考虑。图泛基因组作为当下泛基因组研究的前沿和热点，整合构建图泛基因组的算法和软件逐渐多样成熟，但这些算法软件多针对人类泛基因组的研究开发。目前植物研究中主要的泛基因组构建策略多是通过三代测序获得高质量的从头组装染色体水平基因组，再借由比较基因组分析结构变异构建图泛基因组。而图泛基因组本身并不依赖除底盘基因组外其他样品的染色体水平基因组组装，因此，三代测序直接检测结构变异结合底盘基因组构建图泛基因组的方法可能是更低成本及更便利的一种方式。此外，针对植物基因组特征，开发解决重复序列比例大、染色体结构变异复杂、基因组大小差异显著的算法和软件，将能够有效提升植物图泛基因组的精度和构建效率。

未来，对单一物种构建泛基因组或许不是最终的目标，目前已有许多探索正在朝此发展。地球生物基因组计划(Earth BioGenome Project)旨在组装所有已知真核生物的代表性基因组[72]。类似的还有万种植物基因组计划(The Plant 10000 Genomes Project)等，该项目计划对所有有胚植物、绿藻、原生生物的主要支系的代表性基因组进行测序并展开特征化描述[73]。此外，泛组学概念并不局限于经典的基因组，泛三维基因组、泛转录组等多层次泛组学是今后值得尝试的方向。

4.2 多维组学数据应用

大数据时代下，新的数据类型不断涌现，其应用和处理场景也日趋复杂。泛基因组研究通常会在一个物种/类群内产生多套参考基因组数据。建立这些基因组间的关联，高效地进行多基因组的联合检索和调用，是后基因组时代迫切的数据需求。图泛基因组是对这类问题很好的回答，但也带来了新的挑战。首先图基因组是与以往不同的数据形式，针对这类数据开发的数据库和前端应用目前仍然有限。如何将这些数据高效地服务于更多研究者，是值得探索的方向。大豆多维组学数据库SoyOmics对图泛基因组的单倍型检索和数据可视化提供了实践参考[74]。此外，全景多维组学的发展，对于当下数据的提炼和整合能力有了更深的要求。通过多维组学数据的联合应用，提升生物信息学分析结果的精度和可信度，从而提高作物遗传解析效率，最终服务于分子设计育种[75]。在此过程中，针对多层次组学信号的联合处理与评估，以及多层次组学数据网络的构建，应该成为未来探索的重要方向。

在后基因组时代，泛基因组能够起到对传统基因组的补充和发展作用，其价值和必要性已被证实。在大豆中，泛基因组、变异组、转录组、表观组、表型组等多维度数据已有充分的积累。未来的遗传育种研究应当利用好这些多维组学数据，深度解析重要农艺性状的遗传网络，为分子设计育种提供有力指导，这也是提升大豆产量、改善大豆品质的重要路径。