列当科比较寄生基因组-文献精读32

Comparative genomics of orobanchaceous species with different parasitic lifestyles reveals the origin and stepwise evolution of plant parasitism

不同寄生生活方式的列当科物种的比较基因组学揭示了植物寄生性的起源和逐步进化

摘要

列当科是最大的寄生植物科,包括自养植物和具有各种寄生程度的寄生植物。因此,它是迄今为止研究植物寄生起源和进化的最佳科属。在此,我们提供了三个列当科植物的高质量基因组:自养植物绿春钟萼草(Lindenbergia luchunensis)和全寄生植物埃及列当(Phelipanche aegyptiaca)以及向日葵列当(Orobanche cumana)。将这三个基因组与之前发布的基因组以及其他列当科物种的转录组进行系统基因组学分析,建立了列当科的稳健系统发育框架。我们发现一个古老的全基因组复制事件(WGD,约发生在7348万年前),在列当科起源之前发生,可能促进了寄生性的出现。然而,除了列当草属(Striga)外,在从其自养共同祖先分化后,任何列当科寄生植物谱系中都没有发生WGD事件,这表明,与之前的推测相反,WGD与全寄生性的出现无关。我们在列当科的所有寄生植物以及列当科和南方菟丝子(Cuscuta australis)之间检测到明显的趋同基因丧失。列当科寄生植物的基因家族显示出最近的获得和扩展模式。扩展的基因家族富集于与吸器发育相关的功能,表明最近的基因家族扩展可能促进了列当科寄生植物对不同宿主的适应。本研究展示了列当科寄生植物寄生进化的逐步模式,将促进未来对寄生性和农业中寄生植物控制的研究。

引言

大多数植物是自养生物。然而,大约有4750种被子植物是寄生植物(Nickrent, 2020),完全或部分依赖植物宿主生存,从中提取水分和养分。一些寄生植物仍然具有叶绿素并进行光合作用,这些被称为半寄生植物。其他的植物则不能再进行光合作用,被称为全寄生植物。根据是否需要宿主来完成其生命周期,寄生植物还可以分为兼性和专性寄生植物(Westwood等, 2010)。在被子植物中,寄生植物独立于自养植物演化出12或13次(Westwood等, 2010)。在八个寄生植物谱系中,半寄生植物灭绝,仅留下全寄生植物(Westwood等, 2010)。然而,列当科(Lamiales)是最大的寄生植物科,包括兼性半寄生植物、专性半寄生植物和专性全寄生植物(附图1)(Westwood等, 2010;Joel等, 2013)。列当科甚至包含三个自养植物属:地黄属(Rehmannia)、崖白菜属(Triaenophora)和钟萼草属(Lindenbergia),其中钟萼草属是与寄生植物谱系关系最近的(Li等, 2019)。此外,一些列当科寄生植物在经济上具有重要性,是农业中的毁灭性害虫。例如,独脚金(Striga)和列当(Orobanche和Phelipanche)每年在亚洲和非洲造成的经济损失超过100亿美元(Twyford, 2018)。因此,列当科是研究植物寄生进化转变以及为未来农业应用开发基因组资源的最佳现存系统(Westwood等, 2010)。

列当科主要谱系之间的系统发育关系仍不清楚。McNeal等(2013)的研究基于三个核标记和两个质体标记将该科分为六个主要分支,而Li等(2019)的最新研究分析了另外五个标记,识别出八个主要分支,与之前的处理结果存在不一致。根据被子植物系统发育组的命名,Li等(2019)的处理识别了地黄属(Rehmannieae)、钟萼草属(Lindenbergieae)、银莲花族(Cymbarieae)、列当族(Orobancheae)、来江藤属(Brandisia)、东亚鼻花族(Rhinantheae)、黑草属(Buchnereae)和马先蒿属(Pedicularideae);此外,在Li等(2019)的研究中,全寄生植物族列当族被置于所有其他寄生列当科植物的姐妹群,作者提出全寄生性可能在列当科中早期进化。

寄生性的进化需要在形态和生理上进行重大创新,以感知和识别潜在的宿主植物并形成寄生连接。寄生植物进化出一种独特的器官,即吸器,通过它们可以附着和穿透宿主组织(Yoshida等, 2016)。许多半寄生植物(如Triphysaria和Striga)的吸器与宿主植物的木质部融合,使这些半寄生植物能够从宿主木质部获取水分和养分。一些全寄生植物的吸器木质部和韧皮部与其宿主的木质部和韧皮部融合,通过胞间连丝实现寄生植物和宿主韧皮部组织之间的共质体连续性(Yoshida等, 2016)。列当科的专性半寄生植物和全寄生植物能够感知宿主根部释放的脱磷素(SLs),这些SLs激活寄生植物的萌发过程(Cook等, 1966, 1972)。最近的研究表明,在该科的专性寄生植物中,宿主根部释放的SLs由基因KAI2d感知,KAI2d基因似乎是由脱磷素受体基因KAI2通过重复和新功能化演化而来的。SLs与KAI2d的相互作用使寄生植物能够检测到附近宿主植物的存在(Conn等, 2015;Toh等, 2015;Tsuchiya等, 2015)。吸器的进化和发育引起了许多关注(Yoshida等, 2016)。Yang等(2015)比较分析了三种列当科植物(Triphysaria versicolor、Striga hermonthica和Phelipanche aegyptiaca(Pae))吸器组织的转录组,发现了一组核心寄生基因,其中许多基因经历了基因重复或转录调控的重新配置。

之前对南方菟丝子(Cuscuta australis(Cau),旋花科)(Sun等, 2018)、根寄生植物独脚金(Striga asiatica(Sas),列当科)(Yoshida等, 2019)和内寄生植物寄生花(Sapria himalayana,大花草科)(Cai等, 2021)的研究表明,基因丧失在寄生植物的进化历史中是常见的。Wicke等(2016)研究了列当科各种物种的质体基因组,发现列当科寄生植物特别是全寄生植物的质体基因组经历了大规模的基因丧失,导致大多数与光合作用相关的基因丧失。基因丧失,如质体ndh基因的丧失,即使在列当科半寄生植物中也有检测到(Wicke等, 2016)。一般认为,基因丧失的程度与寄生程度正相关(Cai等, 2021),因为更高程度的寄生需要对宿主更高的依赖,而寄生植物自身需要的生理过程更少。因此,基因丧失可能使寄生植物能够同步其自身生理与宿主的生理,可能导致更好的适应性(Shen等, 2020)。

迄今为止,已有五种列当科物种的基因组发布:自养植物地黄(Rehmannia glutinosa)(Ma等, 2021)、专性半寄生植物Sas(Yoshida等, 2019)和兼性半寄生植物Euphrasia arctica(Becher等, 2020)、松蒿(Phtheirospermum japonicum(Pja))(Cui等, 2020)和马先蒿Pedicularis cranolopha(Pcr)(Jin和Eaton, 2022)。然而,列当科全寄生植物的基因组仍然缺乏。在本研究中,我们测序并注释了自养植物绿春钟萼草和两种重要的全寄生害虫向日葵列当(Orobanche cumana(Ocu))和埃及列当(Pae)的新参考基因组。在此,我们提出了迄今为止最大的列当科物种基因组比较分析。重建了稳健的系统发育树,并详细分析了这些列当科物种的基因组进化,包括基因组重复、基因家族扩展和基因丧失的历史,以及吸器相关基因的进化。我们的分析提供了列当科植物寄生起源和进化的新情景。本研究填补了我们对植物寄生进化的理解空白,并为这一最具多样性和经济重要性的寄生植物类群提供了新的基因组资源。

结果
绿春钟萼草、Ocu和Pae基因组的测序、组装和注释

我们从列当科中选择了绿春钟萼草(Lindenbergia luchunensis,Llu)、Ocu和Pae(附图1显示了这些物种的照片),分别是自养植物和两种全寄生植物,进行全基因组测序。在Nanopore平台上,为Llu生成了36.47 Gb的数据,在PacBio Sequel II平台的CLR模式下,为Ocu和Pae分别生成了158.30和396.00 Gb的数据。使用MGI-SEQ 2000为Llu、Ocu和Pae分别产生了38.19、141.20和329.33 Gb的短读长数据。利用短读长进行的基因组调查分析表明,异质性程度较低(附表1)。因此,直接使用长读长进行基因组的从头组装,并使用短读长修正基因组组装,形成contigs。Pae基因组组装的总长度为3876.90 Mb(N50为9.97 Mb)。使用Hi-C数据,我们获得了染色体水平的Llu和Ocu基因组(Llu:20个拟染色体,212.21 Mb;Ocu:19个拟染色体,1417.94 Mb;附表1)。发现这三个基因组的准确性均超过99.9%(见附加方法和附表1)。然后,我们注释了包括简单重复序列、转座子和RNA基因在内的重复序列。在Llu、Ocu和Pae的基因组中,重复序列分别占30.72%、79.82%和84.40%(附表2)。将来自不同器官的RNA测序(RNA-seq)数据(附表3)映射到各自的基因组,结果在Llu、Ocu和Pae中分别获得了29669、42525和50484个蛋白编码基因。通用单拷贝直系同源基因的基准测试分析表明,这三个基因组的完整性分别为97.1%(Llu)、80.5%(Ocu)和76.3%(Pae)(附表4)。Ocu和Pae基因组中基因的低完整性值是由于Ocu和Pae中大规模的基因丧失(见下文分析),这与它们的全寄生生活方式有关。

基于核基因序列的列当科系统发育关系

之前的系统发育分析表明,列当科有八个主要分支,但这些分支之间的系统发育关系仍不确定(McNeal等, 2013;Schneeweiss, 2013;Li等, 2019)。我们使用列当科物种的19个可用基因组/转录组的核基因(附表5),这些基因覆盖了列当科的七个分支,并包括三个外群物种(附表5)进行系统发育分析(见附加方法)。最终,在筛选出那些质量低和/或拷贝数高的直系同源组(OGs)后,选择了907个OGs用于系统发育重建。共alescent和连接方法得到了相同的树拓扑结构,所有节点均具有100%的支持率(图1)。在这棵系统发育树中,自养系Rehmannieae是所有其他列当科谱系的姐妹群,另一个自养系Lindenbergieae是所有寄生植物谱系的姐妹群(图1)。在寄生植物群体中,Cymbarieae是所有剩余谱系的姐妹群,这与基于少数核基因的Li等(2019)的结果不同。Buchnereae和Orobancheae是姐妹分支,Pedicularideae和Rhinantheae也是姐妹分支(图1)。这四个分支的拓扑结构与之前所有研究的结果不同(Wolfe等, 2005;McNeal等, 2013;Schneeweiss, 2013;Li等, 2019),尽管它与基于matK和rps2基因的拓扑结构相似(McNeal等, 2013)。

图1. 列当科主要分支的系统发育和分子钟定年分析。

系统发育树使用19种列当科物种和3种外群植物的低拷贝直系同源组(OGs)构建。灰色背景表示自养外群;浅灰绿色背景代表列当科自养植物分支;淡黄色背景代表列当科寄生植物;红色分支表示全寄生植物。红色虚线表示Lathraea植物的位置是基于Li等(2019)的工作推断的。节点旁边的数字代表基于分子钟定年的分歧时间(百万年前,Mya),节点上的黑条表示分歧时间的95%最高后验密度(HPD)。所有节点均为100%支持。重要的进化事件显示在虚线框中。左侧的垂直条表示五个单系分支(Cymbarieae、Orobancheae、Rhinantheae、Buchnereae和Pedicularideae)和两个自养分支(地黄属和钟萼草属,显示为“自养”)。底部的条表示地质时间尺度。

一些先前的研究表明,寄生植物的核苷酸替换率高于典型的自养植物(Lemaire等, 2011;Bromham等, 2013);然而,在我们的系统发育树中,只有Buchnereae分支中全寄生植物Aeginetia indica的分支长度异常长,而Orobancheae分支中所有全寄生植物的分支长度与自养植物相似(附图2)。我们计算了列当科所有谱系的同义替换率(Ks)值,确实没有分支显示出高替换率(附图3)。

基于这棵树,我们使用贝叶斯分子定年分析估计了所有节点的分歧时间。估计列当科的起源约为4651万年前(Mya;95%最高后验密度[HPD],3791-5539 Mya),寄生性的出现早于3858万年前(95% HPD,3127-4581 Mya)。我们的分析还表明,列当科中全寄生植物至少独立进化了三次(图1),这一结果类似于Fu等(2017)的研究,这三条全寄生植物谱系中,Orobancheae最早出现,至少在3395万年前(95% HPD,2741-4043 Mya)。

列当科的基因组进化

列当科的基因组大小和染色体数量各不相同,且似乎与寄生程度正相关(Joel等, 2013;Lyko和Wicke, 2021)。多轮全基因组复制(WGD)事件在列当科物种的进化过程中可能发生过(Joel等, 2013;Lyko和Wicke, 2021)。为了全面揭示列当科的WGD事件,我们选择了六种具有参考基因组的物种(本研究中的Pae、Ocu和Llu;已发布/释放数据中的Sas、Pja和Pcr)和四种外群物种(美洲龙胆花(Mimulus guttatus, Mgu;玄参目)、番茄(Solanum lycopersicum;茄目,木兰类)、咖啡树(Coffea canephora;龙胆目,木兰类)和拟南芥(Arabidopsis thaliana;十字花目,蔷薇类))进行共线片段比较。我们专门为本研究设计了一种基于“直系同源共线片段(OCFs)”的分析方法,而不是常用的基于同源搜索获得的共线片段的方法(见附加方法和附图4),这使我们能够调查列当科进化过程中所有可能的WGD事件。

基于所有物种对的OCFs的分析(图2)表明,Sas谱系经历了一次独立的WGD事件(称为αB事件;图2),这与先前的研究一致(Wickett等, 2011;Yoshida等, 2019)。然而,在包括Pae和Ocu在内的任何其他列当科谱系中都没有检测到WGD事件(图2)。列当科的祖先没有经历任何独立的WGD事件,尽管在列当科和美洲龙胆花的共同祖先的进化过程中发生了一次WGD事件,称为βL事件(图2)。值得注意的是,外群物种中检测到的WGD事件与先前的报道一致(Simillion等, 2002;Sato等, 2012;Denoeud等, 2014),支持了我们新颖的WGD分析流程的可靠性。接下来,我们选择了玄参目分支中的四个节点(图2中的S1-S4),并选择了这些物种形成事件中来源的所有直系同源基因来计算Ks值(附图5)。我们发现Ks分布的峰值与这些节点的分歧时间呈线性关系(R² = 0.9926;图2)。因此,利用来自αB和βL事件的旁系基因的Ks值推断了这两个事件的时间:αB和βL分别发生在3264 ± 658万年前和7348 ± 658万年前(图2)。αB事件可能在Buchnereae分支从Orobancheae分支分化后不久发生在3578万年前(95% HPD,2897-4252 Mya;图1和图2)。βL事件的发生接近白垩纪-古近纪边界和当时的灭绝事件(Schulte等, 2010),在那时许多植物谱系经历了WGD事件(Fawcett等, 2009;Wu等, 2020)。我们推测βL事件可能在使美洲龙胆花和列当科的共同祖先在白垩纪-古近纪边界的极端环境变化中存活方面起了重要作用。

图2. 列当科的基因组进化。

列当科和外群谱系中的古多倍化事件。右侧的柱状图矩阵表示物种两两比较的直系同源共线片段(OCFs)的覆盖深度。来自给定物种对的OCFs分别映射到每个物种,创建两个柱状图,表示OCFs的覆盖深度(x轴:OCFs的覆盖深度;y轴:相对频率)。映射到物种B的OCFs的最大深度可用于推断物种A在物种A和B的分化后发生的WGD事件,反之亦然(见附加方法)。在矩阵中,柱状图的每一行和列表示用于创建OCFs的两个物种,列的物种是映射目标物种。每个柱状图右上角的百分比表示目标物种中被OCF覆盖的基因占总基因的比例。从柱状图矩阵推断的WGD事件在左侧的物种树上用星号标出(蓝色:三倍化,红色:重复),星号的位置表示WGD事件的时间,这些时间是从Ks的峰值推断的。物种树上的黑色圆圈表示用于计算Ks值和分歧时间之间相关性的四个物种形成事件(见附加方法)。Ks值的峰值与分歧时间之间的相关性显示在左上角。

了解染色体数目对于理解真核生物的基因组进化非常重要。列当科的染色体数量各不相同(Joel等, 2013;Lyko和Wicke, 2021)。基于来自Ocu、Pcr、Llu和外群物种Mgu的染色体水平基因组数据,我们通过重建列当科的祖先核型获得了18个原型染色体(附图6)。共线染色体片段的分析表明,Llu和Ocu与祖先原型染色体表现出良好的共线性(附图6和附图7)。例如,Ocu的染色体9和Llu的染色体5似乎与祖先染色体8非常相似。然而,Pcr只有八条染色体,其染色体可能经历了至少11次融合事件。

列当科物种的基因组大小各不相同,从223 Mb到10.7 Gb(Bai等, 2012;Joel等, 2013;Lyko和Wicke, 2021)。在我们研究的六种列当科物种中(Llu、Pja、Pcr、Sas、Ocu和Pae),Llu的基因组最小(223 Mb),而Pae的基因组最大(3992 Mb),是Llu基因组的20倍。尽管最近的WGD可以快速增加基因组大小,但我们的分析排除了这些六种物种进化中的最近WGD事件。因此,为了深入了解这些寄生植物中基因组扩展的驱动力,我们比较了Llu、Pja、Pcr、Sas、Ocu和Pae的基因组大小及其基因组中的重复元素(REs)(图3A)。大基因组大小主要是由于REs数量的增加。在约1 Gb的Ocu、Pja和Pcr基因组中,64%–79%的基因组由REs组成;Pae具有最大的基因组(3.877 Gb),84%的Pae基因组由REs组成,其中长末端重复序列(LTRs)家族最多。值得注意的是,Llu、Pcr、Ocu和Pae中的LTRs序列分析表明,LTRs的亚家族扩展是物种依赖的,尤其是在最近Pae和Ocu中的极端扩展(附图8)。为了确定大量增加的LTRs是否会影响这些物种的编码区域,我们比较了Pae和Llu中的内含子大小,分别是本研究中列当科物种中基因组最大和最小的物种。我们发现,不论基因组大小如何,73.23%的内含子长度变异小于1倍(图3B)。此外,基因旁侧区域中的RE含量随着基因组大小的增加而增加(图3C)。大量基因旁侧序列的剧烈变化可能导致基因表达的全基因组变化。我们还注意到,尽管没有发生WGD事件,但具有非常大基因组的Pja、Pcr、Pae和Ocu有比Llu多得多的基因,这主要是由于串联或分段基因复制(30.96%–56.33%;附表6),而不是LTR辅助的“复制-粘贴”复制(6.55%–17.40%;附表6)。由于Llu的染色体9和Ocu的染色体5是同源的,我们特别检查了这两条染色体之间的差异。Ocu的染色体5比Llu的染色体9大八倍(82 Mb对比10 Mb)。我们在Ocu染色体5的近端区域发现了许多I类逆转座子,包括LTRs,这里的基因密度相对较低,支持我们的假设,即LTRs的扩展是列当科寄生植物基因组大小增加的主要驱动力(图3D)。这一发现与通过基因组扫描得到的先前结论一致(Piednoël等, 2012)。

图3. 列当科物种基因组中重复元素的扩展。

(A) 六种列当科物种的基因组大小和重复元素比例。黑点和上方x轴代表基因组大小,柱状图和下方x轴代表基因组中不同类型重复元素的百分比。物种树上的红星标记WGD事件。

(B) 在Llu和Pae中保守的内含子大小分布。每个点代表一个内含子,上方和右侧的直方图分别显示Llu和Pae中内含子大小的分布。

(C) 六种列当科物种基因旁侧区域中的重复元素含量。

(D) 绿春钟萼草的染色体9和向日葵列当的染色体5中的染色体重复元素和基因位置比较。框中的黑线表示染色体上编码基因的位置;面积图表示相应染色体区域中不同类型重复序列的比例;曲线连接同源基因对。用于绘图的区块长度为染色体总长度的1/1000。

列当科中的基因和基因家族进化

我们分析了列当科物种(Pae、Ocu、Sas、Pja、Pcr和Llu)、南方菟丝子(Cau)及其近缘物种(列当科物种包括美洲龙胆花(Mgu)和芝麻(Sesamum indicum);南方菟丝子包括紫薯(Ipomoea nil)和番茄(Solanum lycopersicum))以及两个外群物种咖啡树(Coffea canephora)和拟南芥(Arabidopsis thaliana)的所有基因家族(附加数据1)。我们发现,与南方菟丝子类似,列当科中的所有寄生植物都经历了频繁的基因家族收缩;然而,许多列当科寄生植物的基因家族表现出严重的扩展,这在南方菟丝子中很少见(图4)。基于系统发育树(图1),我们计算了所有分支上显著扩展和收缩的基因家族数量(图4)。在寄生性和专性寄生性首次出现时,收缩频繁发生在列当科,此后,大多数谱系似乎经历了独立的基因家族收缩。大多数基因家族扩展独立发生在不同的物种中。扩展的基因家族中,与转录调控、运输、细胞壁形成、韧皮部/木质部组织发生和侧根形成相关的基因较为丰富(附加数据2),这些基因可能参与了吸器的进化。

图4. 列当科中基因家族的扩展和收缩。

在物种树的每个分支上,绿色数字表示扩展的基因家族数量,红色数字表示保守的基因家族数量。小提琴图中的每条密度曲线显示了左侧所示物种中保守基因家族的F指数(见附加方法)分布。在密度曲线中,浅红色、浅橙色和灰绿色分别表示全寄生植物、半寄生植物和自养植物物种。右侧的条形图显示了每个物种中完全丧失的保守基因家族数量(红色条形,使用下方x轴)和物种特异性基因家族的数量(绿色条形,使用上方x轴)。

此外,我们筛选了Pja、Sas和Pae的转录组数据(附表7),寻找在吸器中高表达的基因(即某基因在吸器组织中的表达水平至少比在其他组织中的表达水平高1倍;见附加方法),发现至少40.92%的这些吸器中高表达基因(HHEGs)在咖啡树(Coffea canephora)和列当科的最近共同祖先(MRCA)出现后通过复制进化而来(图5A和附表8)。接下来,这些复制基因被用于定位系统发育中的复制事件(图5A和附表9):28.03%-36.34%的复制事件发生在美洲龙胆花(Mgu)和列当科的MRCA中(图2中的S4),这些物种在βL WGD事件后分化(图2)。为了量化HHEGs中有多少复制基因是由βL WGD事件引起的,我们提取了基因复制所在的共线片段,发现96.91%(439/453)的这些复制基因位于由βL事件引起的共线片段中。因此,至少11%的HHEGs起源于βL事件。大多数其他复制事件发生在Pja、Sas和Pae的特异进化过程中,而不是在列当科寄生植物的共同祖先中(图5A和附表9)。因此,βL事件与许多吸器相关基因的起源有关。

图5. 古WGD事件βL在列当科寄生性出现和进化中的作用。

(A) 在吸器中高表达基因中检测到的基因复制的系统发育位置。鉴定出每个物种吸器中高表达的基因,为包含这些高表达基因的所有基因家族构建基因树。基因复制事件是从基因树的拓扑结构中推断出来的。每个树节点上的黄色圆圈大小表示在该时间段发生的基因复制事件的数量。物种树上的红星标记WGD事件。

(B) 在独脚金和松蒿中βL WGD事件后的基因复制丧失。x轴(Ks)表示βL WGD事件后的时间(有关计算详情见附图5)。灰色曲线表示基于中性进化指数模型的预测值(附加方法)。红色和蓝色曲线分别由独脚金和松蒿的预测初始值和观察到的最终值推断(附表10)。

βL事件发生在7348±658万年前,而寄生性的起源估计至少在3858万年前(95% HPD,3127–4581万年前),约为βL事件后的3500万年(图2)。在WGD事件之后,复制基因通常会迅速丧失(Maere等,2005)。我们使用一个数学模型,该模型假设复制基因在中性进化过程中呈指数丧失(Ren等,2018)(见附加方法),以估计由βL事件产生的复制基因的命运,然后将预测值与Mgu、Llu、Pja、Sas和Pae中保留的βL事件复制基因进行比较。模型预测,当寄生性出现时,βL事件的48.10%复制基因将被保留,假设中性进化,现存基因组中约应保留18.23%的复制基因,这与自养Mgu和Llu中观察到的比例相似(图5B和附表10)。在兼性半寄生植物Pja的基因组中,βL产生的基因复制保留率为17.97%,这一数值与中性场景推断的相似(18.23%)。然而,当我们关注HHEGs时,保留率增加到30.17%(图5B和附表10),这表明存在强烈的正选择。对于专性半寄生植物Sas和全寄生植物Pae,分别仅保留了9.42%和9.06%的βL事件产生的复制基因(图5B和附表10);这些保留率远低于模型预测,这可能与专性寄生植物的大规模基因丧失有关(见下文)。同样,βL事件产生的HHEGs复制基因的保留率分别下降到17.97%和17.54%(图5B和附表10)。因此,在兼性和专性寄生植物中,βL事件的基因复制在HHEGs中的保留率高于全基因组的基因复制,表明βL事件对吸器和寄生性起源很重要。此外,βL事件产生的基因复制在兼性寄生植物中比在专性寄生植物中保留得更多。可能在专性寄生植物从其兼性祖先进化过程中,一些基因复制不再需要,因此从基因组中删除。

基因丧失在寄生植物中很常见(Sun等,2018;Cai等,2021)。我们将所有基因家族分成直系同源组(OGs),并使用这些OGs进行基因丧失分析。没有以其他方式额外分析基因家族收缩,因为基因丧失的比较提供了缺失基因生物学意义的详细信息。还使用一个生物信息学流程筛选由于基因注释和直系同源组分组错误产生的假阳性(见附加方法)。作为比较,南方菟丝子(Cau)被包括在与五种列当科寄生植物的基因丧失分析中,因为南方菟丝子和列当科都是木兰类植物。寄生花(Rafflesiaceae)(Cai等,2021)没有被包括在内,因为它在系统发育上与木兰类植物非常远,是一种内寄生植物。我们发现基因丧失的严重程度与寄生程度正相关:兼性半寄生植物Pja和Pcr分别丧失了2.41%和2.95%的保守基因;专性半寄生植物Sas丧失了5.71%;专性全寄生植物Ocu、Pae和Cau分别丧失了13.11%、13.85%和14.88%(图6A和图6B)。基于最大简约原则估计列当科寄生植物中基因丧失事件的历史,发现所有列当科寄生植物的共同祖先仅丧失了74个基因,而专性寄生植物和全寄生植物祖先在进化过程中分别丧失了191和777个基因(图6A)。值得注意的是,即使在这些寄生植物的物种特异性进化过程中丧失了数百个基因(图6A),许多基因丧失是趋同的(图6A)。通过比较Pedicularideae(Pja和Pcr)和Orobancheae(Ocu和Pae)中丧失的基因,我们发现74-122个基因是趋同丧失的,这通过超几何检验得到了很好的支持(图6A)。此外,在密切相关的全寄生植物Ocu和Pae中,丧失的基因中分别有33.6%和29.9%是物种特异性的,选择分析表明,这些在其他物种中丧失但在Ocu和Pae中保留的基因中有相当一部分处于放松选择状态(附图9)。可能Ocu和Pae仍在经历基因丧失,并且由于放松选择,这些基因在未来将趋同丧失。

图6. 列当科寄生植物和南方南方菟丝子的基因丧失。

(A) 列当科寄生植物的基因丧失历史和趋同进化。左侧:物种树分支上的红色数字表示基于最大简约原则估计的丧失OGs的数量;物种名称下的数字和百分比(括号中)表示总丧失OGs的数量及其占自养植物保守OGs数量的比例。右侧:哑铃图上方的数字表示两个物种在从最近共同祖先(MRCA)分化后丧失的相同OGs数量;每个数字上的浅红色圆圈大小表示超几何检验的p值。

(B) 南方南方菟丝子和列当科半寄生植物及全寄生植物中共同和特异性丧失的OGs数量。

(C) 南方南方菟丝子、埃及列当和向日葵列当中丧失的OGs的基因本体论(GO)富集分析。网络图中的每个节点代表富集的生物过程GO术语(p < 0.02),其大小表示与该GO术语相关的OGs数量。节点的颜色根据基因丧失是特异性还是与其他物种共有来分配;每条边表示两个GO术语之间基于共有OGs数量的相似性。

(D) 列当科寄生植物和南方南方菟丝子中与开花时间调控相关的基因丧失。灰色和蓝色框分别表示该特定基因的缺失和存在。路径信息来自FIOR-ID(http://www.phytosystems.ulg.ac.be/florid/)。

接下来,我们比较了列当科寄生植物和南方南方菟丝子中丧失的基因。在南方南方菟丝子丧失的1687个基因中,超过一半(889个基因,57.14%)也在埃及列当和向日葵列当中丧失,75个基因也在半寄生植物独脚金、松蒿和Pedicularis cranolopha中丧失(图6B)。显然,所有列当科寄生植物和南方南方菟丝子趋同丧失了各种基因,这表明其中一些基因丧失事件可能有助于它们适应寄生生活方式。为了进一步深入了解南方南方菟丝子、埃及列当和向日葵列当中丧失基因的功能(这些都是全寄生植物),我们首先对它们所有丧失的基因进行了基因本体论(GO)富集分析,然后对这些GO术语进行物种间的两两比较。生成的共有和独特GO术语进一步通过网络分析进行分类(图6C)。埃及列当和向日葵列当丧失基因表现出非常相似的GO术语,而南方南方菟丝子丧失基因富集的GO术语与埃及列当或向日葵列当的差异显著(附图10)。在南方南方菟丝子中,大多数丧失基因的GO术语与根部离子运输、乙烯生物合成以及对养分和氧水平的响应有关,这与南方南方菟丝子无根的形态相一致(图6C)。埃及列当和向日葵列当中丧失基因的大多数涉及光合作用、叶绿体组织和叶绿素生物合成。尽管南方南方菟丝子也丧失了与这些过程相关的基因,但这些过程中GO术语的数量明显少于埃及列当或向日葵列当(图6C)。

在自养植物的叶子中,一个复杂的开花调控网络感知内源和环境信号,并相应地确定植物的开花时间(Blümel等,2015)。由于寄生植物需要与其宿主互动,而全寄生植物不再有叶子(叶子是决定开花的器官)(Jaeger等,2013),寄生植物可能进化出独特的开花调控机制。对南方南方菟丝子和全菌营养兰花天麻的基因组测序表明,这两个物种中丧失了许多与开花相关的基因(Sun等,2018;Xu等,2021)。因此,我们检查了所有列当科寄生植物中的开花调控基因,并将南方南方菟丝子作为比较(图6D)。我们发现许多重要的开花调控基因在全寄生植物埃及列当、向日葵列当和南方南方菟丝子中确实缺失,包括CO、SVP、ELF4、AGL19和AGL16以及CDF1和CDF3(图6D)。在开花调控路径方面,南方南方菟丝子丧失了比埃及列当和向日葵列当更多的与自主和激素路径相关的基因,而埃及列当和向日葵列当丧失了比南方南方菟丝子更多的与昼夜节律和光周期路径相关的基因。我们推测这是因为南方南方菟丝子使用其宿主植物的开花信号FT来激活自身开花(Shen等,2020),而埃及列当和向日葵列当不太可能依赖光来信号开花,因为它们很大一部分时间生活在地下。

图7. KAI2基因家族的分子进化。

系统发育树显示了13种物种中KAI2基因的关系(左上角的框中显示)。列当科寄生植物与拟南芥、番茄和绿春钟萼草的KAI2基因的共线性关系揭示了KAI2基因复制的历史。蓝色和橙色箭头表示复制事件,分支颜色表示Ka/Ks值。用曲线连接的同源基因对。用不同颜色突出显示连接KAI2c、KAI2i和KAI2d基因的曲线。

讨论

列当科是唯一包含展示所有类型寄生生活方式的物种的植物科,是研究寄生起源和进化的首选。列当科的系统发育已使用质体片段(Young等, 1999;Wolfe等, 2005)、内转录间隔区(Wolfe等, 2005;McNeal等, 2013)和单个核基因(McNeal等, 2013;Li等, 2019)进行了研究。尽管大多数研究识别出八个单系分支,但这些分支之间的系统发育关系并未完全解决。在本研究中,我们组装了绿春钟萼草、向日葵列当和埃及列当的三个列当科植物基因组。结合其他列当科植物发布的转录组和基因组数据,本研究涵盖了列当科八个主要分支中的七个。使用907个核OGs,我们重建了列当科高度分辨和强支持的系统发育树,并使用贝叶斯分子定年方法估计了分歧时间(图1)。基于系统发育树,我们提出:(1)列当科的共同祖先是一种自养植物,至少在3858万年前(95% HPD,3127–4581万年前)进化出寄生性(吸器);(2)仅包含兼性半寄生植物的Cymbarieae是最早分化的寄生谱系,生物多样性较低;(3)在渐新世(3390–2303万年前),一个兼性半寄生植物祖先迅速进化为两个谱系,一个分化为包含兼性半寄生植物、专性半寄生植物和全寄生植物的Buchnereae和全寄生植物的Orobancheae,另一个进化为包含兼性半寄生植物的Pedicularideae和包含兼性半寄生植物和全寄生植物的Rhinantheae;这四个分支物种丰富。在渐新世期间,草原迅速扩展(Torsvik和Cocks, 2016),这一事件可能为列当科寄生植物提供了利用草类和草本植物的机会,从而促使这些寄生植物的扩展(Eriksson和Kainulainen, 2011;McNeal等, 2013)。值得注意的是,与最近的研究(Li等, 2019)相反,我们的情景建议半寄生植物比全寄生植物早进化,这与逐步增加对宿主依赖性的渐进进化一致。

大多数列当科物种有8–20对染色体,但某些物种的染色体数可以达到132(Barker等, 1988;Joel等, 2013;Lyko和Wicke, 2021)。根据染色体数量的变化,Lyko和Wicke(2021)提出了列当科进化过程中至少发生了三次古全基因组复制(WGD)事件,包括Striga中的一次WGD事件和Orobancheae分支中的另一次WGD事件。Striga中的WGD事件被最近的基因组分析证实(Yoshida等, 2019)。然而,我们对绿春钟萼草、松蒿、Pedicularis cranolopha、独脚金、向日葵列当和埃及列当的基因组数据进行的共线性分析并未揭示列当科中除了在Buchnereae祖先进化过程中发生的单个WGD事件(αB事件,3264 ± 658万年前)(图2)外的其他WGD事件。此外,绿春钟萼草和向日葵列当染色体的1:1共线性(附图5)也强烈表明绿春钟萼草和向日葵列当分化后没有发生基因组复制。我们检查了列当科中兼性寄生、专性寄生和后来全寄生的出现时间,未发现任何WGD事件与这些进化事件同时发生(图1和图2),表明列当科中的基因组复制与寄生进化无关。然而,通过分析松蒿、独脚金和埃及列当中HHEGs的进化历史,我们发现发生在寄生性出现之前的βL WGD事件与至少11%的HHEGs的起源有关。在所有寄生植物中,βL复制基因在HHEGs中的保留率远高于全基因组范围内的保留率(图5B和附表10)。特别是在兼性半寄生植物松蒿中,HHEGs中βL复制基因的保留率高达30.17%,远远超过中性进化推断的预期保留率(18.23%),表明这些基因复制通过正选择保留(图5B)。βL事件引起的基因复制可能使寄生植物祖先通过新功能化和/或亚功能化获得寄生性和吸器,许多这些基因在兼性半寄生植物的侧吸器中仍然重要。当独脚金和埃及列当的祖先独立进化出终吸器/专性寄生性时,βL起源的HHEGs似乎变得不那么重要,这表明HHEGs中βL复制基因的保留率显著降低。值得注意的是,独脚金和埃及列当的祖先都经历了HHEGs中的谱系特异性基因复制(图5A),这些谱系特异性基因复制可能是终吸器和专性寄生性进化的驱动力。

南方菟丝子和内寄生植物寄生花都是非列当科物种。南方南方菟丝子只有19671个基因(Sun等,2018),是具有最少蛋白编码基因的高等植物之一。寄生花基因组包含55179个基因;然而,其中大多数是转座子样序列,仅剩约10000个低拷贝基因(Cai等,2021)。相比之下,列当科寄生植物的基因远多于南方菟丝子或寄生花(图4),这是由于不同列当科寄生植物中物种特异性基因家族扩展(图4)。此外,在这些扩展的基因家族中,可能与吸器发育和功能相关的基因被鉴定出,许多在吸器中高表达的基因通过谱系特异性复制进化而来(图5)。我们认为,物种特异性扩展的基因家族可能是寄生植物适应不同宿主的驱动力。

类似于南方菟丝子和寄生花,大规模基因丧失也在列当科寄生植物中被检测到,特别是在全寄生植物向日葵列当和埃及列当中。重建的基因丧失历史表明,当寄生性进化时,列当科寄生植物的共同祖先仅丧失了74个基因;相比之下,向日葵列当和埃及列当的最近共同祖先基因组中丧失了777个基因。因此,随着寄生程度的增加,基因丧失变得更加严重。我们的列当科基因丧失数据,以前发表的寄生花数据(Cai等,2021)和全菌营养兰花天麻(Xu等,2021),这些都是异养植物,都强烈支持基因丧失程度和寄生性高度正相关的观点。因此,异养植物可以根据异养水平和基因丧失程度分为四类。第一类是基因丧失2%–3%的异养植物;这些植物是兼性半寄生植物。第二类是基因丧失6%–7%且需要宿主完成某些发育阶段的异养植物,这些是专性半寄生植物和初始菌根异养植物,如大多数兰科物种。第三类是丧失13%–15%基因的异养植物,这些是具有营养器官的全寄生植物或全菌营养植物,如南方菟丝子、列当和天麻。第四类是基因丧失超过30%的植物;这些是仅具有生殖器官的内寄生植物,如寄生花。第一类和第二类异养植物中丧失的基因似乎相当随机,而第三类异养植物中丧失的基因与光合作用、转录调控、胁迫适应和器官发生有关;第四类内寄生植物寄生花中丧失的基因包括几乎所有在埃及列当、向日葵列当、南方南方菟丝子和天麻中丧失的基因,代表了极端形式的寄生。

不同寄生植物中的趋同基因丧失可能是由于净化选择丧失后的中性进化结果,因为这些基因不再需要寄生。然而,某些基因的丧失可能会提高寄生植物的适应性。在Striga中,蛋白磷酸酶2C基因突变,导致对脱落酸不敏感,脱落酸信号通路受损导致Striga中非常高的蒸腾作用,使这种寄生植物在干旱条件下也能从宿主木质部汁液中吸收养分(Fujioka等,2019;Yoshida等,2019)。无叶南方南方菟丝子几乎丧失了所有的开花调控通路,其编码重要开花信号的FT基因已假基因化;然而,南方南方菟丝子使用宿主植物的FT蛋白激活其自身开花,使其能够与宿主的开花时间同步(Shen等,2020)。通过这种方式,南方南方菟丝子可以寄生于许多具有不同开花时间的宿主物种,丧失开花基因因此是南方南方菟丝子的一个巧妙适应策略(Shen等,2020)。研究基因丧失在列当科寄生植物中的作用以及基因丧失引起的生理和生态影响将是很有趣的。

Searcy和Maclnnis(1970)提出了寄生植物基因组进化的三阶段模型:首先,进化出吸器,使其能够与宿主植物建立物理连接;第二,在吸器进化后,寄生植物开始丧失不再需要的基因;第三,寄生植物进化以适应其特定的宿主。列当科寄生植物的进化很好地支持了这一模型。列当科和美洲龙胆花的共同祖先中的βL WGD事件产生了许多复制基因,这些基因可能促成了吸器的进化;此后,列当科寄生植物,特别是全寄生植物中发生了基因丧失事件,同时,特定基因家族的扩展可能促成了寄生植物对宿主的专门化和适应。

在本研究中,我们的系统基因组分析构建了列当科主要谱系的稳健系统发育框架。此外,基因组进化和比较基因组分析为列当科寄生性起源和进化提供了新的见解。这些基因组资源以及对列当科物种的进一步分子、遗传和基因组研究将为这些引人入胜的植物的剧烈生理和形态变化的进化提供许多有趣的见解。

材料与方法
基因组大小估算

基因组大小是基于流式细胞术和基因组k-mer分析估算的(附表1)。使用了CyFlow Space-3000(Partec,德国),选择水稻(Oryza sativa L. ssp. japonica,370 Mb)和玉米(Zea mays ssp. mays var. B73,2.1 Gb)作为内部标准(附表1)。在基因组k-mer分析中,基因组大小估算基于短读长测序数据约100×覆盖深度(附表1),使用嵌入在GCE软件(v.1.0.0)中的k-mer(k = 17)深度频率分布分析(Liu等,2020)。

基因组测序

在用于DNA提取之前,收集了Llu的叶子和Ocu及Pae地上部分的茎,并用自来水清洗。对于短读长测序,使用VAHTS Universal Plus DNA Library Prep Kit for MGI(Vazyme,南京,中国)构建DNA文库,按照制造商的说明进行操作,并在MGI-SEQ 2000(MGI Tech,深圳,中国)上对文库进行测序,以生成每种物种约100×覆盖深度的150-bp双端数据。对于长读长测序,我们使用牛津纳米孔技术的PromethION平台对Llu进行测序,对Ocu和Pae则使用PacBio Sequel II平台的CLR模式进行测序。每个物种生成约100×覆盖深度的长读长数据。

按照先前描述的方法(Rao等,2014),使用Llu和Ocu的组织进行Hi-C管道,包括交联、用MboI(New England BioLabs,MA,USA)进行染色质消化、DNA末端标记、连接、纯化、剪切和生物素拉下。Hi-C文库在MGI-SEQ 2000平台上以150-bp双端模式进行测序,结果约为100×覆盖深度。

基因组组装和注释

对于基因组组装,我们使用长读长数据进行从头组装,然后使用短读长数据进行错误校正和抛光,以获得高质量的contigs。对于Llu和Ocu,我们使用Hi-C数据将contigs锚定到染色体上,以获得染色体水平的组装(见附加方法获取组装软件和程序)。为了辅助基因组注释,我们使用DNBSEQ-T7平台(MGI Tech,深圳,中国)从列当科植物的不同组织中获得了RNA-seq数据(附表3)。基于这些数据,我们采用了一个整合RNA-seq数据、从头预测特征和同源序列信息的注释流程来注释基因组中的重复序列和蛋白编码基因(详见附加方法)。

有关系统发育分析和比较基因组分析,请见附加方法。

  • 18
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值