Plant pan-genomics and its applications
植物泛基因组学及其应用
摘要
植物基因组具有高度多样性,以至于个体之间有相当一部分基因组序列不共享。这些可变的DNA序列与保守的核心序列一起,构成了更复杂的泛基因组,代表了物种中所有非冗余DNA的集合。随着基因组测序技术的快速进展,植物泛基因组研究正在加速推进。在此,我们回顾了植物泛基因组学的最新进展,包括构成可变序列的结构变异的主要驱动因素、用于展示泛基因组的方法创新,以及构建植物泛基因组的重大成果。我们还总结了近期在解码端粒到端粒或无缺口植物基因组中的“暗物质”方面的努力。这些新型基因组资源相比之前组装的不完美基因组,具有显著的优势,预计将成为遗传研究和植物育种的新参考。
引言
植物基因组具有超高的复杂性、多样性和重要性,几十年来一直是广泛研究的对象(Danilevicz等,2020)。2000年,首个植物基因组——小型开花植物拟南芥(Arabidopsis thaliana)的草图发布,这一成果凝聚了大量人力、时间和财力的投入(拟南芥基因组计划,2000)。直到近年来测序技术和组装方法的进步,植物基因组的组装才逐渐成为一项切实可行的任务(Kersey,2019)。得益于这些技术创新,我们现在可以访问大约800种广泛分布于主要植物类群的物种的1000多个植物基因组,其中超过70%是在过去4年内发布的(Marks等,2021;Sun等,2021)。通过跨物种比较,植物基因组的起源、组织和结构的关键特征已被解码,包括基因组大小从数兆碱基对到数十至数百吉碱基对的巨大变化(Pellicer等,2018),转座元件(TEs)的谱系特异性活性(Liu等,2020a),以及与物种形成和多样化相关的频繁多倍化和二倍化事件(Cheng等,2018)。
除了这些努力外,植物学界还致力于对同一物种的更多个体进行测序,因为植物种内多样性可能非常高,甚至超过人与黑猩猩之间的种间差异(Buckler等,2006)。在缺乏足够基因组序列的长期里,人们曾假设同一物种内的个体共享大部分DNA序列(核心基因组),并存在大量的单核苷酸多态性(SNPs)和小片段插入缺失(InDels)。这些简单的遗传变异经常被研究并用于剖析复杂性状的遗传基础和指导育种实践(Shi和Lai,2015;Huang等,2022a)。然而,越来越多的证据表明,更多的DNA序列是可变的,并且仅由一部分个体共享(可舍弃基因组),这导致了更复杂的“泛基因组”概念的出现(Tettelin等,2005)。泛基因组代表了一个物种内所有DNA序列多样性的集合(Sherman和Salzberg,2020),并且预计其完整性和准确性将高于常用的单一线性参考基因组(Bayer等,2020)。自大豆中首次尝试泛基因组组装以来(Li等,2014),泛基因组研究已扩展到许多其他植物物种,包括拟南芥、水稻、玉米、大麦、小麦、棉花、番茄、马铃薯、柑橘和油菜(Gao等,2019;Jayakodi等,2020;Jiao和Schneeberger,2020;Song等,2020;Hufford等,2021;Li等,2021a;Qin等,2021;Hoopes等,2022;Liu等,2022a,2022b),即使对于近期经历过驯化瓶颈的作物,也揭示了出乎意料的高基因组变异性,并突出了泛基因组在功能基因组学发现中的巨大潜力。表示日益复杂的植物泛基因组的计算方法也在迅速发展(Liu和Tian,2020;Wang等,2020b)。除了这些进展外,我们还在努力填补之前未解决的序列缺口,并生成具有代表性的无缺口或T-2-T基因组组装,从而解码长期以来在复杂植物基因组中未被探索的最终暗物质(Navratilova等,2022)。
本文回顾了植物泛基因组和无缺口基因组研究的最新进展。我们讨论了基因组结构变异(SVs)的主要驱动力,这些变异与可变基因组密切相关,并对重要的表型变异做出重大贡献。我们还总结了表示泛基因组的方法学进展,从早期的“映射到泛基因组”策略到最近的基因组图方法。最后,我们讨论了这些新开发的基因组资源的应用,这些资源有望加速植物遗传研究和育种,以满足日益增长的全球粮食需求。
植物泛基因组中可变序列下SVs的主要驱动力
泛基因组的概念框架最初于2005年提出,用于研究微生物(Tettelin等,2005);前缀“泛”源自希腊语παν,意为“全部”。然而,直到2010年,当短读长的高度并行测序技术成熟,并在人类、动物和植物中实现了从头组装时,泛基因组分析才进入高等真核生物的领域(Li等,2010,2014)。首个植物泛基因组是通过组装七个野生大豆(Glycine soja)基因组构建的,它揭示了许多在栽培大豆(Glycine max)基因组中缺失的与抗病性、种子成分和开花时间相关的可变基因(Li等,2014)。在表征可变基因组时,早期的工作大多集中在蛋白质编码基因的存在与否上(Lai等,2010;Li等,2014;Montenegro等,2017)。近年来,测序和计算算法的进步使得能够全基因组范围内鉴定复杂的SVs(通常>50 bp),包括插入缺失(InDels)、拷贝数变异(CNVs)、存在/缺失变异(PAVs)、倒位和易位,它们共同构成了泛基因组的变异性(Yuan等,2021)。在全基因组鉴定后,与SVs相关的序列(在现有参考基因组中没有同源性)可以作为基因组图中的替代路径,沿线性基因组迭代堆叠或锚定,这两者都可以不断优化以纳入更多新颖的序列变异(Bayer等,2020)。
植物中SVs的产生涉及四大主要力量(图1):TE活性(Della Coletta等,2021)、非等位基因同源重组(NAHR)(Parks等,2015)、遗传渐渗/水平基因转移(HGT)(Ma等,2022)以及多倍体植物中的偏向性基因丢失(部分丢失)(Cheng等,2018)。TEs最初在玉米中作为“控制元件”被发现(McClintock,1950),并且是主要植物基因组中最丰富的功能元件。植物中的TEs可分为I类反转录元件、II类DNA转座子和Helitrons,它们分别通过“复制-粘贴”、“剪切-粘贴”和“滚动循环”机制进行转座(Lisch,2013)。在转座过程中,它们经常诱导中等至大片段(数百碱基对至数十千碱基对)的插入缺失和其他复杂的SVs(Alonge等,2020)。某些类型的TE,如玉米中的Helitrons,可在转座过程中捕获外显子片段,导致基因移动和种内基因共线性的破坏(Morgante等,2005;Sun等,2018)。TEs还对两个植物亲缘种分裂后的谱系特异性基因组扩张和染色体重排负责(Liu等,2020a)。除了来自比较基因组学的大量证据外,一系列精细作图工作也表明,源自TEs的SVs在作物驯化和适应中发挥了关键作用。例如,在玉米的tb1、vgt1、ZmCCT10和ZmCCT9基因的非基因调控区域插入Hopscotch、MITE、CACTA和Harbinger样TEs,与其祖先大刍草相比,减少了分枝和光周期敏感性(Salvi等,2007;Studer等,2011;Yang等,2013;Huang等,2018)。除了插入外,TEs从其原始位点的切除也能够产生与玉米和葡萄种子颜色变异相关的复发性插入缺失突变(Lisch,2013)。由于它们的广泛存在,TEs已在几乎所有植物泛基因组中被表征,在其中它们构成了可变序列的很大一部分,例如,在水稻中约占68.7%(Zhang等,2022a),在玉米中约占60%(Gui等,2022)。
图1. 植物泛基因组中与可变DNA序列相关的结构变异(SVs)主要驱动力的概述。
(A) 转座元件的活动(包括转座和切除)导致常见的SVs,这些SVs可能与表型变异相关(以玉米种子颜色变异为例)。 (B) 两个非等位重复DNA(A-B和A′-B′)之间的非等位同源重组(NAHR)产生两个重组等位基因,一个带有插入(A′-B),另一个带有两个位点(B-A′)的缺失。 (C) 水平基因转移(HGT)能够使植物基因库中原本不存在的基因被快速获取,甚至可以在真菌、细菌和植物等不同生物界之间发生。 (D) 多倍体植物全基因组复制后,重复基因的差异化分离导致个体间出现存在/缺失变异(PAV)基因。 NAHR,也称为不等交换,发生在减数分裂过程中非等位重复DNA序列错位时,导致缺失、重复和其他类型的SV(Saxena等,2014;Parks等,2015)。植物基因组包含大量来自转座元件(玉米85%,小麦85%,大麦~80%)和多倍体化(Jiao等,2017;Vicient和Casacuberta,2017;Jayakodi等,2020;Wicker等,2021)的重复序列,因此更容易发生NAHR。值得注意的是,简单的重复基因序列就足以在没有转座元件参与的情况下独立诱导NAHR,如拟南芥中所报道的(Krasileva,2019)。NAHR导致的重复和缺失的大小以及受影响的基因数量主要取决于错位重复序列的位置,甚至当它们发生在不同染色体上时,还会触发易位或染色体融合(Robberecht等,2013)。由于NAHR和转座元件的后果在某种程度上相似,它们对可变序列的贡献通常难以区分,尽管一些精细尺度研究已报道大豆和玉米中可能源自NAHR的一系列拷贝数变异(CNV)基因(Liu等,2012;Cho等,2019)。 尽管转座元件和NAHR都能产生SVs,但它们很少能够直接引入新的DNA序列。相比之下,原本不存在于物种基因库中的DNA序列可以通过遗传渐渗或HGT获得。遗传渐渗和HGT在植物中都很普遍(Suarez-Gonzalez等,2018;Huang等,2021;Ma等,2022),尽管特定事件通常发生频率较低。除了通常源于近亲杂交的遗传渐渗(Ellstrand等,1999)外,HGT可以在关系更远的物种之间发生,甚至跨越真菌、细菌和植物等不同生物界(Levy等,2017)。通过这两个过程获得的外源基因可能为受体植物提供新的功能或表型,使其更好地适应环境变化(Ma等,2022)。一个著名的例子是Fhb7基因,它从镰刀菌水平转移到长穗偃麦草中,然后在小麦育种计划中被人工选择以提高抗赤霉病性(Wang等,2020c)。尽管已经开发了用于鉴定HGTs的全基因组方法(Husnik和McCutcheon,2018;Steinegger和Salzberg,2020),但它们尚未应用于植物泛基因组研究,以评估HGTs对产生可变序列的贡献。 多倍体植物中基因组复制后的分离是基因和非编码序列存在/缺失变异(PAVs)的另一个主要驱动力(Lei等,2021)。多倍体化在植物中普遍存在,约有35%的植物物种近期经历了多倍体起源(Rice等,2019)。全基因组复制事件产生的基因冗余可以缓冲基因组变异的有害影响(Uauy,2017);因此,这些重复序列中的一个拷贝的选择压力可能会降低,使该拷贝更容易积累突变或发生新功能化(Liang和Schnable,2018)。来自一个亚基因组的重复基因拷贝也往往更容易丢失,这一现象称为基因组分离(Della Coletta等,2021)。在玉米这一异源四倍体作物中,已报道存在持续的分离,且差异分离可能是导致多样玉米个体中广泛存在的PAV基因的原因之一(Schnable等,2011)。也有可能一些可变DNA序列是新生出现的,如在水稻中已显示的蛋白质编码基因和非编码功能元件(如长非编码RNA)(Zhang等,2019a;Bayer等,2020)。
植物泛基因组的方法学发展
与易于识别和编目的单核苷酸多态性(SNPs)和小插入/缺失(InDels)相比,即使基因组学和计算技术有了显著提高,与泛基因组相关的复杂遗传变体的正确表示仍然具有挑战性(Sherman和Salzberg,2020)。在此,我们总结了植物泛基因组表示的三个阶段:最早的方法主要依赖于短并行读长的映射和组装,以探索植物泛基因组的普遍性和复杂性;第二种方法使用超高质量的基因组序列,尽可能完整地揭示可变序列;最近新兴的基因组图方法通过提供一个统一的坐标系,在简化泛基因组使用方面显示出巨大潜力(Bayer等,2020;Wang等,2022)。
使用短测序读长早期尝试鉴定全基因组SVs
长期以来,人们一直知道植物的遗传构成在有限位点上可能存在显著差异(Fu和Dooner,2002;Brunner等,2005),但直到高度并行的短读长测序技术的出现,全基因组范围内鉴定SVs仍然很困难(Metzker,2010)。然而,尽管大多数短读长SV发现方法足够敏感,能够发现长达数十千碱基的缺失(Mahmoud等,2019),但它们通常无法鉴定相对较大的插入(30个碱基对或更长)和其他复杂SVs。开发了一系列计算算法,通过将短读长与参考基因组对齐来发现SVs(图2);例如,读长深度方法利用读长深度的波动来推断相关DNA片段中的CNVs或PAVs(Abyzov等,2011;Zhou等,2015)。使用读长对是另一种直接的方法;它鉴定出显著偏离总体插入大小分布的读长对,表明这些读长对内存在SVs(Ho等,2020)。其他工具,如Pindel,使用拆分读长方法(Ye等,2018),逐步将拆分读长与潜在SVs相交的不连续基因组区域对齐。除了映射短读长以发现SVs外,还可以将短读长转换为更短的k-mers,以研究个体间遗传组成的差异(Munir等,2020),并已开发方法鉴定与植物性状变异相关的k-mers(Voichek和Weigel,2020)。
图2. 植物参考基因组构建中的重大事件时间线(上图)和植物泛基因组表示方法(下图)。
2000年,首个模式植物——拟南芥(Arabidopsis thaliana)的参考基因组发布,随后发布了包括水稻、葡萄、玉米、大豆、番茄和小麦等重要作物的首个参考基因组(上图)。随着植物参考基因组的可获得性和短读长测序技术(约2010年)的成熟,利用新型计算算法实现复杂结构变异(插入、缺失、重复、倒置等)的全基因组鉴定成为可能。2016年,提出了“映射到泛”策略,用于组装未映射的短读长序列并构建泛基因组。几乎与此同时,PacBio和Nanopore长读长测序技术的进步促进了高质量基因组的组装和比较,从而实现了无偏见的PAV序列鉴定和泛基因组构建。2020年,在大豆中构建了首个基于图的植物泛基因组;预计它将成为比传统线性泛基因组方法更好的替代方案,以实现更有效的泛基因组分析。
图3. 泛基因组学在遗传研究和育种实践中的应用。
使用泛基因组作为新的参考,可能会发现更多与重要性状相关的新位点,特别是对于线性参考基因组中缺失的复杂结构变异(左区)。由于遗传变异的准确性更高,泛基因组还可能改善群体基因组分析。已证明使用图基因组调用的群体结构变异可以部分弥补复杂性状的“缺失遗传力”,这对基因组选择至关重要(底部区域)。图基因组还有望减轻当来自遗传距离较远的个体的表观遗传数据与单一线性参考基因组对齐时通常报告的映射偏倚,从而实现无偏倚的表观等位基因鉴定(上区)。最后,泛基因组有助于鉴定用于编辑的重要可变基因,并在新的作物种类或品种中建立新的编辑系统,以实现作物的新驯化(右区)。
为了提高短读长序列鉴定结构变异的能力,一种替代方法是首先将这些大量数据组装成相对较长的重叠群(长达数百千碱基对),这通常能够揭示植物中的大多数结构变异(Ou等人,2020)。组装短读长序列可以从而提高鉴定结构变异的敏感性和准确性(Alkan等人,2011),并减少错误发现,这对于研究罕见结构变异至关重要。然而,大量短读长序列的组装主要依赖于de Bruijn图框架,这既耗时又计算密集。因此,提出了一种简化的“映射到泛”方法,通过首先将所有短读长序列与参考基因组对齐,然后联合组装来自数百甚至数千个个体的未映射读长序列,以提高泛基因组构建的效率(Hu等人,2017)。通过这种策略组装的重叠群代表了来自所有个体的新序列的混合物(Wang等人,2018),并且需要进一步重新映射短读长序列,以明确它们在特定个体中的存在/缺失状态。“映射到泛”可能是已成功用于构建多种作物泛基因组的最常见方法之一,包括水稻、玉米、小麦、高粱、棉花和番茄(表1)(Hirsch等人,2014;Montenegro等人,2017;Wang等人,2018;Gao等人,2019;Li等人,2021a;Ruperao等人,2021)。
Table 1. Summary of pan-genome studies in major plant species.
Species | Sequencing platform | Construction methods | Population size | Pan-genome representationsa | References |
---|---|---|---|---|---|
Arabidopsis thaliana | PacBio | Genome assembly comparison | 8 | Pan-genome of ∼135 Mb and ∼30 000 pan-genes | Jiao and Schneeberger (2020) |
Rice | Illumina | Map-to-pan | 3010 | Pan-genome of ∼642 Mb | Wang et al. (2018) |
Illumina | Genome assembly comparison | 66 | 42 580 pan-genes | Zhao et al. (2018) | |
PacBio | Genome assembly comparison | 16 | ∼33.7 Mb novel sequences in each line | Zhou et al. (2020b) | |
PacBio | Assembly-based graph genome | 31 | 66 636 pan-genes | Qin et al. (2021) | |
Nanopore | Genome assembly comparison | 111 | Pan-genome of ∼1250 Mb and 75 305 pan-genes | Zhang et al. (2022a) | |
Nanopore | Assembly-based graph genome | 251 | Pan-genome of ∼1.52 Gb and 51 359 pan-genes | Shang et al. (2022) | |
Maize | Illumina | Map-to-pan (transcriptome) | 503 | 8681 novel transcripts | Hirsch et al. (2014) |
Illumina | Genome assembly comparison | 6 | 34 352 core genes | Haberer et al. (2020) | |
PacBio | Genome assembly comparison | 26 | 103 000 pan-genes | Hufford et al. (2021) | |
Illumina | Assembly-based graph genome | 721 | Pan-genome of ∼6.71 Gb and 58 944 pan-genes | Gui et al. (2022) | |
Wheat | Illumina | Map-to-pan | 18 | 140 500 pan-genes | Montenegro et al. (2017) |
Illumina | Genome assembly comparison | 15 | ∼13 000 PAV genes | Walkowiak et al. (2020) | |
Soybean | Illumina | Genome assembly comparison | 7 | 2.3 to 3.9 Mb PAV sequences and 338 PAV genes | Li et al. (2014) |
PacBio | Assembly-based graph genome | 29 | ∼167 Mb specific sequences in each accession | Liu et al. (2020c) | |
Illumina | Genome assembly comparison | 204 | Pan-genome of ∼1086 Mb and 54 531 pan-genes | Torkamaneh et al. (2021) | |
PacBio | Genome assembly comparison | 26 | 129 006 pan-genes | Zhuang et al. (2022) | |
Barley | Illumina | Genome assembly comparison | 20 | 638.6 Mb PAV sequences | Jayakodi et al. (2020) |
Sorghum | PacBio | Assembly-based graph genome | 16 | Pan-genome of 984.8 Mb and 44 079 pan-genes | Tao et al. (2021) |
Illumina | Map-to-pan | 176 | Pan-genome of 883.3 Mb and 35 719 pan-genes | Ruperao et al. (2021) | |
Cotton | Illumina | Map-to-pan | 1807 | Pan-genome of 3388 Mb and 102 768 genes (G. hirsutum) Pan-genome of 2575 Mb and 80 148 genes (G. barbadense) | Li et al. (2021a) |
Tomato | Illumina | Map-to-pan | 725 | Pan-genome of 1179 Mb and 40 396 pan-genes | Gao et al. (2019) |
Nanopore | Long-read mapping | 100 | 238 490 SVs | Alonge et al. (2020) | |
Cucumber | PacBio | Assembly-based graph genome | 12 | 26 822 pan-genes | Li et al. (2022a) |
Rapeseed | PacBio | Genome assembly comparison | 8 | Pan-genome of ∼1.8 Gb and 152 185 pan-genes | Song et al. (2020) |
Mung bean | Illumina | Genome assembly comparison | 217 | Pan-genome of ∼762.9 Mb and 43 462 pan-genes | Liu et al. (2022a) |
一些研究成功地将序列和基因整合到一个非冗余的泛基因组或泛基因中,而其他研究则仅鉴定了一个或多个个体与参考之间的存在/缺失(PAV)序列或基因,而没有进行进一步的整合。
通过比较高质量的基因组组装来构建泛基因组
尽管在短读长草图组装中,基因区域大部分已被解析,但其非基因区域通常不完整,限制了其中结构变异(SV)的鉴定(Lei等人,2021)。PacBio和Nanopore技术的第三代长读长测序,加上Hi-C和BioNano等先进的遗传和物理图谱方法,已彻底革新了基因组组装领域(Amarasinghe等人,2020)。这些最先进的技术通常可生成N50高达数十兆碱基对的重叠群,保证了复杂非基因序列(其间穿插着蛋白质编码基因)的高质量(Du和Liang,2019;Zhang等人,2019b;Logsdon等人,2020)。特别是,最新的PacBio High-Fidelity(HiFi)和Nanopore超长技术已实现了人类和复杂植物基因组的近乎完整组装(后文详细讨论)。同时,还开发了许多先进的基因组组装器,如HiCanu(Nurk等人,2020)、Hifiasm(Cheng等人,2021)、MECAT(Xiao等人,2017)、NECAT(Chen等人,2021)、NextDenovo(Hu等人,2020)、wtdbg2(Scott等人,2020)和Shasta(Shafin等人,2020),与短读长相比,这些组装器显著简化了组装程序,并最大化了序列连续性和准确性。迄今为止,已从长读长为拟南芥、水稻、玉米、小麦、大麦、高粱和大豆等主要植物物种组装了数十至数百个高质量基因组(Jayakodi等人,2020;Jiao和Schneeberger,2020;Liu等人,2020c;Walkowiak等人,2020;Hufford等人,2021;Qin等人,2021;Tao等人,2021;Zhang等人,2022a)。
通过在这些高质量基因组之间执行全基因组比对(WGA),提高了SV鉴定的敏感性和准确性。最近,已开发或升级了Mummer(Marcais等人,2018)、LastZ(Harris,2007)、Minimap2(Li,2018;Kalikar等人,2022)和AnchorWave(Song等人,2022)等比对工具,以适应具有高重复序列含量的大型植物基因组。一个基因组中存在而另一个基因组中缺失的序列,尤其是通过多个比对工具交叉验证的序列,可被分类为潜在的PAV序列(Wang等人,2019)。除了WGA外,还可使用滑动窗口方法将基因组划分为相互重叠的短DNA片段,以鉴定PAV,与WGA相比,这加快了比对过程(Sun等人,2018)。除了PAV外,还可以使用Assemblytics、MUM&Co和smartie-sv等工具在两个基因组之间的比对同源区域内鉴定其他一些SV(Nattestad和Schatz,2016;Kronenberg等人,2018;O'Donnell和Fischer,2020)。然而,由于植物中存在许多易引入错误比对的旁系同源序列,因此准确鉴定更复杂的SV(如倒位、重复和易位)仍然具有挑战性(Wu等人,2022)。因此,建议使用来自BioNano光学图谱、Hi-C染色质相互作用矩阵和长读长重新比对的独立数据来验证这些复杂的SV,并优化其断点(Wang等人,2019)。还可以通过直接映射长读长而不进行组装(Alonge等人,2020)或使用与短读长类似的“映射到泛”策略组装未映射的长读长来鉴定SV(Zhang等人,2022a)。一些工作还尝试通过整合多个染色体级别高质量基因组的同源性和共线性来直接构建泛基因网络(Chen等人,2020c)。
新兴的基于图的泛基因组方法
对于通过“映射到泛”或全基因组比较方法构建的泛基因组,已将可变序列线性附加到骨干基因组序列上进行下游遗传分析,因此,此类泛基因组存在局限性,即每个SV位点仅表示一个单倍型(Garrison等人,2018;Sherman和Salzberg,2020)。最近,提出了一种将SV的位置和替代序列沿线性参考基因组存储为可扩展且紧凑的基因组图的有前途的方法,以进行更有效的泛基因组分析(图2)(Rakocevic等人,2019)。在基因组图中,SV及其替代序列被记录为节点和边,从而改进了与SV纠缠的读长的局部比对(Garrison等人,2018)。可通过在固定的线性参考基因组上结合更多新鉴定的SV来迭代升级基因组图,从而为交叉比较提供统一的坐标系统(Wang等人,2022;Zhou等人,2022)。尽管基因组图对人类和传统分析工具来说仍然较难阅读,但正在积极开发新工具(如Vg(Garrison等人,2018)、SevenBridges(Rakocevic等人,2019)、GraphAligner(Rautiainen等人,2019)和minigraph(Li等人,2020)),以实现快速且准确的读长映射和变异鉴定(Liu和Tian,2020)。
分析图基因组有两个主要步骤:首先存储和索引图,然后将读长与其对齐(Sherman和Salzberg,2020)。迄今为止,植物中报告的所有图基因组都是使用Vg构建的(Liu等人,2020c;Qin等人,2021;Tao等人,2021;Zhou等人,2022),Vg是领先的基因组图工具之一,可以结合复杂的SV、简单的单核苷酸多态性(SNP)和小插入缺失(InDel)。还开发了其他工具来优化数据结构和加速图索引(Rakocevic等人,2019;Rautiainen等人,2019)。基因组图在存储复杂的嵌套SV(如带有SNP的插入和源自同一位点的多个不同插入)方面具有独特优势(Sherman和Salzberg,2020)。然而,它们也存在由随机路径组合产生的大量不存在的单倍型的问题。一个潜在的解决方案是沿着关键节点用不同的“颜色”固定种群中存在的路径,以确保图中的所有路径都是“颜色一致的”,这一策略已经应用于使用de Bruijn图的组装和基因分型(Iqbal等人,2012)。但是,分析“着色”基因组图的计算成本仍然非常高;例如,为超过50,000个个体的单个人类染色体建立索引需要超过70,000个CPU小时和320 GB RAM(Sherman和Salzberg,2020)。
构建和索引是基于图的泛基因组分析中的主要限速步骤。一旦图建立,通常可以比将读长与传统线性基因组对齐更快地将其与这个图参考对齐(Liu和Tian,2020)。HISAT2是一个常用的比对器,已用于使用图FM索引算法将DNA和RNA测序读长都与基因组图对齐(Kim等人,2019)。其他工具包(包括Vg、SevenBridges和Graphtyper2)也能够将短重测序读长映射到图上,并增强了用于SNP和SV基因分型的下游实用程序(Liu和Tian,2020;Zhou等人,2022)。我们期望专为高保真长读长(PacBio HiFi或ONT R10)或组装重叠群设计的图比对器能更好地利用基于图的基因组来鉴定SV。
主要植物物种泛基因组研究进展
随着泛基因组学方法的迅速发展,过去几年中,植物泛基因组的主要特征已得到系统研究(Lei et al., 2021;Li et al., 2022b)。泛基因组大小可能是几乎所有研究中都涉及的最基本特征。在水稻3K项目中应用“map-to-pan”策略(Hu et al., 2017;Wang et al., 2018),产生了植物泛基因组中首批解析的序列之一(约630 Mb),揭示了约268 Mb在Nipponbare中不存在的新序列,而最近的两项研究分别使用来自111个和251个不同水稻品种的基因组组装,进一步将这一估计值提高到约1250 Mb(Zhang et al., 2022a)和约1520 Mb(Shang et al., 2022)。这些工作揭示了水稻中惊人的序列多样性,并表明具有代表性的Nipponbare参考基因组仅占水稻泛基因组的一部分。最近的水稻研究似乎也表明,通过比较多个长读长组装构建的泛基因组,比使用“map-to-pan”方法构建的泛基因组具有更高的序列完整性,尽管它们使用的群体规模小于早期的3K项目。除了水稻,其他植物的泛基因组大小也得到了分析,包括拟南芥、大豆、高粱、棉花、番茄和油菜(表1),其大小通常是其单一参考基因组的两到三倍(Gao et al., 2019;Liu et al., 2020c;Song et al., 2020;Li et al., 2021a;Tao et al., 2021)。不出所料,具有小且紧凑的基因组且没有近期多倍体化事件的植物物种,如拟南芥(Jiao and Schneeberger, 2020),往往具有相对较少的新序列来补充其参考基因组。除了构建序列解析的泛基因组外,对于具有复杂基因组的物种(如玉米、大麦和小麦),另一种常用的替代方法是将蛋白质编码基因聚类为“泛基因”图谱(Montenegro et al., 2017)。通常,随着更多基因组的加入,所有个体中都存在的“核心”基因的比例会下降,最终在二穗短柄草中降至约35%的低谷(Gordon et al., 2017)。“非必需”基因通常更值得注意,两项独立的水稻研究报告了类似数量的基因(约10,000个)在Nipponbare中不存在,这些基因通常富集在免疫和防御反应途径中,这些途径对抗性育种具有巨大潜力(Wang et al., 2018;Zhao et al., 2018)。玉米和小麦的泛基因数量更高,超过100,000个(表1)(Montenegro et al., 2017;Hufford et al., 2021)。考虑到在代表性B73基因组中仅注释了约40,000个基因,玉米在26个不同的嵌套关联映射(NAM)创始系中似乎具有最高的泛基因比例(n = 103,000)(Hufford et al., 2021)。
基于图的泛基因组也已在大豆、水稻、玉米、高粱、番茄和黄瓜中报道(Liu et al., 2020c;Qin et al., 2021;Tao et al., 2021;Gui et al., 2022;Li et al., 2022a;Shang et al., 2022;Zhou et al., 2022)。由于基于图的基因组可以使用短读长发现结构变异(SV),这些工作中已鉴定出大量新SV,并发现它们与常见单核苷酸多态性(SNP)的连锁不平衡相对较低(Zhou et al., 2022)。因此,基于这些SV在大豆和水稻中进行的全基因组关联研究(GWAS)已鉴定出多个与农艺性状相关的新位点(Liu et al., 2020c;Qin et al., 2021)。然而,对于大麦和小麦等大型复杂植物基因组,尚未报告基于图的基因组,这可能是因为分析它们仍然需要大量的计算资源。
复杂植物基因组的绝大部分由非编码序列组成(Lu et al., 2019;Ricci et al., 2019)。用于研究非编码调控表观基因组的高通量基因组测定方法正在积极开发中(Klemm et al., 2019),包括使用测序的转座酶可及染色质测定、DNase I高敏感位点测序、DNA亲和纯化测序、MethylC测序、染色质免疫沉淀测序、高通量染色体构象捕获测序(Hi-C)、原位Hi-C后染色质免疫沉淀以及使用正电子发射断层扫描的染色质免疫沉淀,这些方法已成功应用于各种植物物种(O'Malley et al., 2016;Li et al., 2019;Dong et al., 2020;Xu et al., 2020;Zhang et al., 2021a)。物种中多个个体的表观基因组可以揭示与种内转录动态相关的调控元件的存在与否。例如,通过使用测序的转座酶可及染色质测定鉴定的监管区域中,约有95%在26个玉米NAM创始系之间的相互比较中是共享的(Hufford et al., 2021)。在水稻中,已为20个品种生成了针对各种组蛋白修饰和RNA聚合酶II的染色质免疫沉淀测序数据,揭示了不同组蛋白修饰标记的调控元件的保守率在约30%至约80%之间(Zhao et al., 2020)。这些数据表明,至少在与玉米中可接近染色质相关的非编码功能元件的保守性,可以高于或等于两个不同玉米系之间蛋白质编码基因的保守性(Sun et al., 2018)。它们还表明,被不同表观遗传标记标记的功能性非编码元件具有不同程度的序列保守性。然而,这些研究主要依赖于单个线性参考基因组来映射短读长,而改进的分析工作流程预计将使用基于图的基因组作为新参考,用于分析来自多个个体的“表观泛基因组”数据。
尽管泛基因组最初被提出用于表示种内序列多样性(Sherman and Salzberg, 2020),但最近已扩展到包括来自多个相关物种的个体,以构建更全面的“超级泛基因组”。在作物中,超级泛基因组研究通常整合野生亲缘种和品种,因此它们是研究和利用野生等位基因进行作物改良的重要方法(Chen et al., 2020b)。不仅可以纳入直接祖先(例如,Zea mays ssp. parviglumis),还可以纳入其他作物亲缘种(Zea mays ssp. mexicana, Zea perennis, Zea luxurians等),因为它们也可以对作物适应过程做出重要贡献(Yang et al., 2017)。最近发布了玉米属的全属超级泛基因组(约6.71 Gb),其中包含约4.57 Gb在B73参考基因组中不存在的序列(Gui et al., 2022)。其他超级泛基因组也已为大豆属、高粱属、柑橘属和萝卜属构建(Tao et al., 2021;Zhang et al., 2021b;Liu et al., 2022b;Zhuang et al., 2022)。最近,亚洲和非洲水稻超级泛基因组项目共组装了251个野生(O. rufipogon和O. barthii)和栽培(O. sativa和O. glaberrima)品种,其中亚洲野生品种具有比栽培品种显著更多的非必需NLR基因(Shang et al., 2022)。通常,野生亲缘种在作物超级泛基因组中贡献了更多的序列多样性,特别是对于因作物驯化过程中遗传瓶颈而丢失的野生等位基因(Shi and Lai, 2015)。越来越多的证据也表明,这些野生等位基因可能在调节作物适应性状方面发挥关键作用(Tian et al., 2019;Chen et al., 2022;Huang et al., 2022b),再次强调了超级泛基因组在推进作物改良方面的重要性。
解码端粒到端粒(T-to-T)植物基因组
尽管我们为提高植物基因组的完整性付出了巨大努力,但迄今为止发布的几乎所有植物基因组仍然不完整,存在由多个连续N表示的序列缺口。这些缺口主要来自着丝粒周围和端粒区域的长简单重复序列、核糖体DNA、近期串联基因重复以及复杂的嵌套转座子(Navratilova等,2022),使用传统的测序和组装策略仍然难以准确且完整地组装这些区域(Liu等,2020b;Navratilova等,2022;Nurk等,2022)。因此,在这些“顽固”区域中的变异性,这些区域通常涉及调节减数分裂动力学、基因组稳定性、染色质可及性以及其他基本生物过程,无法从这些不完整序列构建的植物泛基因组中进行研究。最近,提出了一系列T-to-T基因组项目,其共同目标是完成从一条端粒到另一条端粒的所有染色体序列(Li等,2021b;Naish等,2021;Song等,2021;Nurk等,2022)。T-2-T基因组对于构建基于图的泛基因组也具有重要意义,因为它们可以在图中作为一致的骨架序列使用,无需进一步升级,从而为交叉比较提供了一个统一的坐标系,并使新发现的变异能够迭代地纳入其中。
使用足够长的读取片段跨越这些未解析的复杂缺口是T-to-T基因组组装成功的关键(Logsdon等,2020)。纳米孔测序技术现在可以产生超长读取片段(N50超过100 kb),大小可达兆碱基(Amarasinghe等,2020),因此对T-to-T组装至关重要(Naish等,2021;Nurk等,2022)。为了进行类比,这些超长读取片段与经典的BAC序列一样长,后者是构建金标准参考基因组的最佳方法之一(International Rice Genome Sequencing,2005;Paterson等,2009;Schnable等,2009)。然而,仅基于纳米孔读取片段的组装仍然存在相对较高的碱基错误率,即使在多轮读取自我校正和重叠群共识之后(Chen等,2021)。因此,PacBio HiFi读取片段通常用作补充,以优化纳米孔组装并修复剩余缺口(Nurk等,2022)。对于拟南芥和水稻等小且简单的基因组,可能仅使用PacBio HiFi读取片段就足以完成T-2-T组装(Li等,2021b)。在长读取片段的初步组装后,可以独立使用物理和遗传图谱(BioNano、Hi-C和10X连锁读取片段)来检测和修复错误组装,尽管它们通常无法进一步提高序列连续性,因为重叠群的大小通常远小于物理和遗传图谱的大小(Deschamps等,2018)。当某些区域持续抵抗组装时,已尝试首先通过CRISPR-Cas9辅助切割来富集这些区域,然后独立测序和组装它们,用作序列补丁以完成无缺口组装(Gilpatrick等,2020;Lopez-Girona等,2020)。通过整合这些最先进的基因组技术,可以生成无缺口组装,其中包含成功跨越染色体臂和着丝粒周围区域的超长重叠群(Liu等,2020b;Li等,2021b)。然而,只有那些成功扩展到染色体两端端粒的组装,以长末端简单重复序列(水稻中为5′-AAACCCT-3′)为代表,才能被归类为T-2-T组装(Du等,2017;Naish等,2021)。
人类T-2-T基因组联盟报告了首个高等真核生物的T-2-T组装,即完整的人类X染色体(Miga等,2020),并在2022年完成了所有人类染色体的组装(Nurk等,2022)。在几乎相同的时期,还构建了一系列无缺口或T-2-T植物基因组(表2),特别是在模式植物拟南芥和水稻中(Naish等,2021;Song等,2021;Wang等,2021;Hou等,2022;Zhang等,2022b)。目前,经典拟南芥品系Col-0有三种不同的T-2-T组装(Col-CEN、Col-XJTU和Col-PEK版本),为着丝粒相关卫星变异体(CEN180)的序列组成和分化提供了重要见解。Col-CEN中的五个着丝粒之一显示出ATHILA反转录元件的大量历史转座,这表明拟南芥中着丝粒的快速进化(Naish等,2021)。在玉米B73-Ab10组装的两个无缺口染色体中也分析了完整着丝粒(Liu等,2020b);与拟南芥不同,玉米中的着丝粒长简单重复序列(CentC)相对较低,尤其是三个富含反转录元件的着丝粒。除了这些关于非基因区域高拷贝重复序列的新见解外,最近还发现了具有功能重要性的蛋白质编码基因:ZS97和MH63无缺口水稻组装中的40个和25个新基因,以及Col-PEK T-2-T组装中的213个基因(Song等,2021;Hou等,2022)。香蕉和西瓜也报告了T-2-T或无缺口组装(Belser等,2021;Deng等,2022),并且在更复杂的玉米(J.S.和J.L.未发表结果)和大麦T-2-T基因组(Navratilova等,2022)方面也取得了重要进展。T-2-T组装的成功是一个重要里程碑,填补了最后的“暗物质”,使我们能够解码植物基因组的所有DNA序列、结构、表观遗传特征和基因功能。
Table 2. Pioneering efforts in the construction of gapless or T-2-T plant genomes.
Species | Sequencing or mapping methods | Assembly methods | Completeness | Genome size | References |
---|---|---|---|---|---|
Arabidopsis thaliana | Nanopore ultra-long, PacBio HiFi, and Hi-C | NextDenovo, NextPolish, and 3D-DNA | T-2-T | 133.7 Mb | Wang et al. (2021) |
Nanopore, PacBio HiFi, BioNano, and Hi-C | Flye and RagTag | T-2-T | 132.1 Mb | Naish et al. (2021) | |
Nanopore ultra-long and PacBio HiFi | NextDenovo and NextPolish | T-2-T | 133.9 Mb | Hou et al. (2022) | |
Rice | PacBio HiFi and Hi-C | Canu, Falcon, and MECAT2 | T-2-T | 391.6 Mb 395.8 Mb | Song et al. (2021) |
PacBio HiFi | Hifiasm | Gapless | 397.1 Mb | Li et al. (2021b) | |
Nanopore ultra-long and PacBio HiFi | NextDenovo, Hifiasm, and PGA | T-2-T | 394–398 Mb | Zhang et al. (2022b) | |
Maize | PacBio, Nanopore, and BioNano | Canu and Miniasm | Gapless | 2162.8 Mb | Liu et al. (2020b) |
Watermelon | Nanopore ultra-long and PacBio HiFi | NextDenovo and Hifiasm | T-2-T | 369.3 Mb | Deng et al. (2022) |
Banana | Nanopore ultra-long and BioNano | NECAT | Gapless | 484.0 Mb | Belser et al. (2021) |
Only those genomes in which the telomeres of both chromosome ends have been resolved are classified as T-2-T; otherwise, they are a gapless genome.
无论是二倍体还是多倍体,植物基因组总是来自两个亲本染色体组的组合,并且在杂交种或杂交后代中可能保持高度杂合状态(Glombik等,2020)。长期以来,组装高度杂合的基因组一直是一项难题。因此,一种替代策略是将两个亲本单倍型的测序读取简单地合并成一组“嵌合体”重叠群(contigs)(Chin等,2013;Berlin等,2015)。然而,这种策略可能导致与杂种优势和等位基因特异性表达相关的重要亲本遗传变异丢失(Cao等,2015)。在长读取技术,尤其是PacBio HiFi读取技术(Cheng等,2021)的帮助下,现在技术上已经可以实现单倍型解析的基因组组装。尽管如此,这些组装中的大多数可能仍然代表来自两个单倍型的重叠群的混合物,并且必须进一步进行分相。已经提出了三向分组策略,该策略利用通常从高通量短读取中获得的两个亲本的序列k-mers,首先划分F1中的长读取,然后将划分的读取分别组装成两个单倍型组装(Koren等,2018)。这一策略已成功用于组装玉米近缘种大刍草的高度杂合基因组(Huang等,2022b)。此外,在植物中可以轻松构建高密度遗传图谱,并将其用于将初级嵌合体组装分成两个单倍型,这在高度杂合的二倍体马铃薯和苹果中已得到证明(Sun等,2020;Zhou等,2020a)。最近,已经证明仅使用Hi-C数据,结合升级的Hifiasm算法,无需亲本信息即可生成单倍型解析的组装(Cheng等,2022)。除了二倍体植物物种外,还尝试为四倍体物种生成单倍型分相的组装,这意味着在高丛蓝莓和苜蓿中组装四组等位基因的同源染色体(Colle等,2019;Chen等,2020a;Shen等,2020)。单倍型解析的基因组组装的成功对于许多无性繁殖作物尤为重要,因为它们的基因组高度杂合,并且难以通过自交纯化(de Vetten等,2003)。
泛基因组在植物遗传研究和育种中的应用
在过去的二十年里,我们见证了作物育种的重大进展,这主要归功于基因组资源和技术的进步,这些资源和技术已完全融入标记辅助选择、基因聚合、基因组选择(GS)和基因编辑方法中(Thudi等,2021)。然而,如果我们要为迅速增长的世界人口生产足够的食物,就必须不断加速作物育种(McKenzie和Williams,2015)。泛基因组相较于传统的单一参考基因组具有许多优势(Bayer等,2020),因此将在作物遗传研究和分子育种中发挥越来越重要的作用。
关联作图
关联作图已广泛用于剖析植物复杂性状的遗传基础(Xu等,2017)。它利用自然群体(例如核心种质资源)中的历史重组(反映在相邻标记之间的连锁不平衡中)来测试遗传标记与表型变异之间的关联。对作图群体进行基因分型,这需要将群体短读取正确比对到参考基因组上(Liu和Tian,2020),对于关联作图的成功至关重要。使用泛基因组作为参考可以减少来自参考基因组中缺失序列的读取比对错误,并揭示可变序列中更多的潜在遗传变异(图3)。例如,水稻3K项目通过将短读取比对到约374 Mb的Nipponbare基因组上,鉴定了约2900万个高质量单核苷酸多态性(SNP)(Wang等,2018),而如果以约642 Mb的水稻泛基因组为参考,我们可能会鉴定到更多的SNP,因为新增的新颖序列被认为比核心序列更具“变异性”。在准确性方面,已经证明基于图的基因组在将短读取比对到具有复杂结构变异(SV)的纠缠区域时具有优势(Liu和Tian,2020),并且已经开发了下游工具,如Vg(Garrison等,2018)和Giraffe(Sirén等,2021),以实现群体SV的快速基因分型。最近,基于泛基因组图调用的SV已成功用于大豆、水稻、番茄和黄瓜的全基因组关联研究(GWAS)(Liu等,2020c;Qin等,2021;Li等,2022a;Zhou等,2022),揭示了许多使用基于线性参考调用的SNP无法鉴定的新颖位点。例如,使用水稻图基因组鉴定出的一个长末端重复序列(LTR)插入(987 bp)被认为是叶片衰老的可能因果变异,但在使用单一线性参考基因组进行常见SNP鉴定时无法检测到(Qin等,2021)。除了关联作图外,泛基因组在改善其他作图群体的基因分型方面也具有巨大潜力,尤其是涉及多个遗传距离较远的亲本的作图群体,如联合连锁关联作图(Wurschum等,2012)和巢式关联作图(NAM)群体(McMullen等,2009)。
群体基因组分析
近年来,在作物中进行了许多大规模的重测序工作(Kersey,2019),揭示了与作物驯化、适应性和育种过程相关的遗传多样性、群体结构、历史选择清除和人口历史。然而,这些分析几乎完全基于群体SNP或小片段插入/缺失(InDel)。越来越多的证据表明,使用SV估计的群体结构可能与使用SNP估计的群体结构有所不同(Mamidi等,2020)。此外,还发现一些大规模SV,如B73参考基因组中缺失的兆碱基规模的存在/缺失变异(PAV)序列,在玉米中受到选择(Huang等,2021)。由于现在已有多种植物物种的泛基因组(表1),我们预计将增加使用泛基因组作为参考对已发表的大规模重测序数据进行重新分析的工作,以鉴定更全面的遗传变异集并更新以前的群体基因组结果。利用图基因组重新分析主要作物的选择清除尤其具有前景(Zhou等,2015;Wang等,2020a),利用先前使用的线性基因组提供的统一坐标系作为基因组图的骨架。
表观遗传学研究
表观遗传特征,包括DNA甲基化、组蛋白修饰、小非编码RNA、染色质可及性和三维结构,表现出强烈的组织和细胞类型特异性,这在植物中已得到广泛研究(Lloyd和Lister, 2022)。除了个体内的表观遗传变异外,表观遗传特征在个体间也存在差异,表现为表观等位基因,这些基因可被捕获或创建以用于作物改良(Springer和Schmitz, 2017)。越来越多的研究探索了与作物驯化和育种过程相关的群体表观遗传变异(Shen等, 2018;Xu等, 2020;Zhao等, 2020;Hufford等, 2021)。然而,当来自遗传距离较远的个体的短读段与线性参考基因组对齐时,这些分析可能会受到比对偏差的影响,导致表观遗传信号的不公平比较。一些已发表的研究尝试通过用单核苷酸多态性(SNPs)替换参考基因组,创建一个不改变基因组坐标的“伪”参考基因组,从而减轻这种比对偏差(Kawakatsu等, 2016;Dong等, 2017),这一思路与图基因组的概念本质上相似。由于图基因组更为复杂,我们预期它将成为对齐群体表观遗传数据的更好解决方案,同时配合新设计的工具来鉴定表观遗传变异,并通过全表观基因组关联研究进一步发现功能性表观等位基因。
基因组选择(GS)
基因组选择(GS)是利用来自训练群体的全基因组DNA标记和目标性状,预测未表现型育种群体的基因组估计育种值的过程(Xu等, 2021)。由于GS基于可在幼年期进行基因分型的DNA标记,因此可以大幅减少传统表型选择所需的大规模田间试验的时间和成本,并加速育种周期。许多因素,包括连锁不平衡、统计模型、群体组成、DNA标记和性状遗传力,都会影响GS的性能(Desta和Ortiz, 2014)。与全基因组关联研究(GWAS)一样,全基因组SNPs也常用于GS。然而,早期研究表明,常见SNPs仅能解释少数复杂性状的狭义遗传力(Yang等, 2010),这一问题被称为“缺失遗传力”,它影响了临床应用和育种实践中的预测准确性。自这一问题提出以来,大量的研究努力已致力于寻找“缺失遗传力”的潜在来源(Evans等, 2018)。最近的一项番茄研究表明,使用图基因组作为参考调用的结构变异(SVs)部分弥补了复杂性状的“缺失遗传力”(Zhou等, 2022),这可能是因为SVs与因果变异之间存在更强的连锁不平衡,而这种不平衡难以通过常见SNPs捕获,以及长期以来的假设,即SVs更可能是因果变异(Chiang等, 2017)。这些新建立的基因分型程序,配合深度学习等先进预测算法(Wang等, 2020b),预计将通过新颖的GS方法进一步提升作物遗传增益。
基因聚合与分子育种
广泛的等位基因变异是重要性状变异的遗传基础,对于基因聚合和作物育种具有根本重要性。例如,数量性状基因及其因果变异(数量性状核苷酸[QTNs]),包括SNPs、小插入/缺失(InDels)和其他复杂SVs,已被系统编目并整合到一个基因组导航系统(RiceNavi)中,以指导水稻的育种设计(Wei等, 2021)。基因分型过程对于从头创建或改良现有优良品种至关重要,通常依赖于短测序读段的比对和变异调用,以选择具有有利QTNs的重组系。如前所述,这一策略对于鉴定大多数来自SNPs和小InDels的QTNs是有效的,但在鉴定具有深刻遗传效应的复杂SVs时成功率有限。因此,泛基因组预计将进一步优化与更复杂SVs相关的基因的选择和聚合,特别是对于仅存在于野生近缘种中且在当前育种实践中很少使用的基因(Chen等, 2020b)。
长期以来,自然遗传变异一直被广泛用于作物育种(Liang等, 2021)。主要由CRISPR-Cas9技术驱动的基因组编辑现在提供了一种强大的新策略,通过创建先前不存在的等位基因来加速育种(Huang等, 2022a)。植物中的基因组编辑系统也在快速发展,以提高编辑效率,并扩大可编辑位点和受体,使其来自更多样化的遗传背景。在这方面,泛基因组不仅可以提供一份值得编辑的主要候选基因清单,还可以通过提供高质量的基因组序列来设置优化的编辑系统,从而扩展可行的作物种类或品种。作为示例,最近的一项研究报道了一种野生四倍体水稻(O. alta)的基因组,以及一种高效的基因组编辑系统(Yu等, 2021),为从头驯化新作物建立了一条实用途径。
挑战与前景
植物泛基因组研究的兴起无疑是一个重要的里程碑,推动了将群体DNA序列作为新的参考,用以补充甚至取代单一线性基因组,并实现更有效的遗传分析(Bayer等,2020)。随着测序技术和用于表示泛基因组的计算算法的不断进步,有关“植物泛基因组”的研究文章数量持续增加(PubMed),揭示了与植物进化轨迹和性状变异相关的前所未有的高基因组变异性。我们预计,植物泛基因组将在基础研究和育种应用中发挥越来越重要的作用,尽管目前已发布高质量泛基因组的植物种类仍然很少,与已组装的上千个植物参考基因组之间存在巨大差距(Sun等,2021)。
由于缺乏标准化流程,某些先前发表的植物泛基因组研究的分析相对随意。本文建议采用一个三步流程进行植物泛基因组分析:第一步是通过聚类所有可用的基因组序列来构建非冗余的泛基因组序列和泛基因。建议在此过程中使用PacBio HiFi或Nanopore超长测序技术,以确保初始读段和组装序列的高质量。然后,在第二步中,对已识别的可变和核心序列/基因进行深入的注释,开展多组学分析,以揭示它们与转座元件、染色质可接近性、基因转录及性状变异和人工选择之间的关系。最后,所有基因组将被比对到一个超高质量的基因组骨架上,以识别结构变异(SV)并构建图形泛基因组(Liu和Tian,2020)。植物端到端(T-2-T)基因组是构建图形泛基因组的理想骨架,且不需要频繁升级,从而确保交叉比较时使用统一的坐标系统。群体测序读段可进一步比对到这些图形基因组,以促进遗传定位、基因选择(GS)、表观遗传研究和分子育种,尽管与图形基因组兼容的更复杂工具的开发仍需加快。
植物超级泛基因组的构建过程也应加速(Shang等,2022)。尽管大多数作物的等位基因变异总体较高,但驯化后,存在于野生亲缘物种中的大量遗传多样性已丧失(Shi和Lai,2015),尤其是在那些通常涉及重要性状调控的选择基因中。因此,需要采用新的方法来发现并充分利用此前未被利用的野生等位基因,以维持遗传增益。我们现在认识到未开发的野生禾本科植物DNA中蕴藏的巨大潜力,相关研究正着手对这些野生基因组进行测序和组装(Lopez等,2022)。即将到来的植物超级泛基因组研究浪潮可以帮助我们描绘过去的进化过程,并指导未来的设计育种。