Multiple independent losses of the biosynthetic pathway for two tropane alkaloids in the Solanaceae family
茄科植物中两种莨菪烷生物合成途径的多次独立丧失
摘要
东莨菪碱和莨菪碱(HS)是两种具有重要药用价值的莨菪烷生物碱,它们存在于茄科家族中多个关系较远的谱系中。在本研究中,我们测序了来自这些谱系的三种代表性HS产生物种的基因组,以及一种不产生HS的物种。我们的分析揭示了这三种HS产生物种中共同负责HS合成的生物合成途径。我们观察到在茄科家族中两类物种中与HS合成相关的基因高度共线性。通过在关键位点引入功能获得和功能丧失突变,我们分别验证了两类物种中与HS合成相关的关键基因功能的减少/丧失或重新激活。这些发现表明,自其在祖先谱系中起源以来,HS生物合成途径经历了独立且反复的丧失。我们的结果为未来在茄科作物中人工工程HS生物合成提供了潜在的应用前景。
引言
植物中的次级代谢物是强大的进化选择的结果。令人瞩目的是,完全相同的植物次级代谢物可以在关系较远的谱系中被发现,这表明自然选择通过生物和非生物胁迫(包括防御病原微生物和食草动物、与授粉者的相互作用、以及对抗干旱、紫外线辐射和霜冻的保护)多次作用,生成这些代谢物。另一种解释是,这些代谢途径可能起源于所有相关谱系的最近共同祖先,并在关系较远的谱系中保留了下来,但由于不利的选择压力或在分化过程中发生的遗传漂变,可能在某些关系较近的谱系中丧失。
莨菪烷生物碱是植物生物碱多样化的吡咯啉类成员,其化学结构中包含一个8-甲基8-氮杂双环[3.2.1]辛烷(莨菪碱)环。目前,已经在包括茄科、旋花科、红树科和古柯科等多个植物家族中鉴定出超过300种莨菪烷生物碱。这些莨菪烷生物碱可以根据其生物合成和结构特征分为几个主要类别。例如,古柯碱来源于古柯科,东莨菪碱和莨菪碱(HS)在茄科中产生,而卡立净则从旋花科中分离出来。最近的研究表明,存在于古柯科和茄科中的这些莨菪烷生物碱是独立进化的,但在功能上表现出趋同,这通过酶的特性分析得以证实。在茄科家族中,HS的生产可见于四个不同的系统发育和地理谱系中。Datureae族起源于南美洲,而Mandragorinae亚科和Hyoscyaminae亚科(包括之前归类为姐妹群Lyciinae的Atropa)则分布在青藏高原及其邻近地区,Anthocercideae族则出现在澳大利亚。这些生物碱具有多种应用,常用于神经毒剂中毒、帕金森病和神经肌肉疾病的治疗,是多种有效药物生产的基础。此外,消旋HS是一种世界卫生组织认可的有效、安全且价格低廉的药物。然而,从相应植物中分离出的HS的全球供应仍然是一个挑战。因此,理解HS生产的基因进化,并明确负责这一生产的特定基因和突变,可能有助于在未来通过工程化途径生成这两种具有生物活性和经济价值的产品。
一个多世纪以来,已经利用多种HS生产物种来揭示HS生物合成途径的每一步。目前,整个HS生物合成途径已在颠茄中完全表征。据推测,共有12种酶参与HS的生物合成,该过程从多胺腐胺(1)开始,腐胺由两个初始氨基酸前体鸟氨酸或精氨酸衍生而来。1通过腐胺甲基转移酶(PMT)的作用被甲基化,生成N-甲基腐胺(2),随后通过N-甲基腐胺氧化酶(MPO)被氧化,生成4-甲基氨基丁醛(3)。3随后经历自发环化,生成N-甲基吡咯啉阳离子(4),通过聚酮合酶(PYKS)和细胞色素P450(CYP82M3)酶介导的途径转化为托品酮(5)。托品酮还原酶I(TRI)随后将5转化为托品(6),这是HS合成的初始起始材料。芳香族氨基酸氨基转移酶(ArAT4)催化苯丙氨酸(7)转化为苯丙酮酸(8)。苯丙酮酸还原酶(PPAR)将8还原为苯乳酸(9),随后由UDP糖基转移酶(UGT1)转化为苯乳糖苷(10),这是生成莨菪花碱(11)的酰基供体。莨菪花碱(11)通过莨菪花碱合酶(LS)催化的步骤与6和10结合生成,随后通过P450介导的(CYP80F1)重排生成莨菪碱醛(12)。莨菪碱脱氢酶(HDH)将12转化为莨菪碱(13),随后通过莨菪碱6-羟化酶(H6H)催化的两步环氧化反应转化为东莨菪碱(14)。在HS生物合成所需的12个步骤中,从TRI作用开始的最后五个步骤仅专用于HS的生产。相对而言,前四种酶及其相应的产物参与多种代谢物的合成,包括古柯碱和卡立净。值得注意的是,TRI生成的托品(6)是HS途径中的一个关键中间代谢物。此外,LS是另一个关键基因,对于启动专门的HS生物合成至关重要。
上述研究进展引发了许多科学问题。特别是,尚不清楚四个HS生产谱系是否使用相同的生物合成基因来生成HS。如果这些谱系遵循相同的HS合成遗传途径,那么HS生物合成的独立起源可能需要多个关键基因的趋同功能。或者,这些次级代谢产物可能起源于一个祖先途径,而这一途径在关系较近的谱系中丧失。因此,我们试图评估这些在茄科中系统发育距离较远的植物中分布零散的药用莨菪烷生物碱HS生物合成的进化选择。
在本研究中,我们测序了来自茄科家族中三个关系较远谱系(分别为Datureae、Hyoscyaminae和Mandragorinae)中生产HS的代表物种,包括山莨菪、木本曼陀罗和茄参。此外,我们为非HS生产物种——与Hyoscyameae关系密切的枸杞——产生了高质量的基因组组装。此外,我们还获得了13个代表多个非HS生产谱系的非HS生产物种的高质量基因组用于比较。我们的主要目标是评估这些茄科家族中关系较远的谱系中HS生物合成的进化历史。我们评估了基因组结构,搜索了代表所有HS相关基因在每个合成步骤中保守进化的同线性块,并通过在两类物种中引入功能获得和功能丧失突变,测试了HS生物合成酶关键位点的存在。这些基因和关键突变的表征对于未来在广泛种植的茄科作物(包括番茄和马铃薯)中工程化HS途径以有效获取这两种代谢产物具有重要意义。
结果
四个高质量基因组的测序与组装
共生成了126 Gb、166 Gb、104 Gb和221 Gb的Illumina短读序列,分别用于估算山莨菪(Anisodus tanguticus)、木本曼陀罗(Brugmansia arborea)、茄参(Mandragora caulescens)和枸杞(Lycium chinense)的基因组大小,结果分别为1,198 Mb、1,517 Mb、756 Mb和1,408 Mb(表1,补充图2,补充表1和2)。随后,我们采用了两种长读长测序技术来生成这些物种的高质量基因组。对于山莨菪,获得了总计约164 Gb(~105.8×覆盖度)的Oxford Nanopore Technologies(ONT)长读序列,其N50长度为25 kb,并使用NextDenovo软件构建了初级片段(补充表1)。通过NextPolish(v 1.2.0)对短读序列进行校正,并使用purge_haplotigs进行去重过滤后,最终获得了总长度为1249 Mb、片段N50为23.80 Mb的山莨菪基因组组装版本(表1,补充表3),略大于预测的基因组大小。对于其余三个物种,采用了PacBio高保真(HiFi)长读测序。获得了覆盖度分别为20.1×、33.0×和35.6×的HiFi读序列,并用于生成木本曼陀罗(1548 Mb,片段N50为7.70 Mb)、茄参(712 Mb,片段N50为25.26 Mb)和枸杞(1538 Mb,片段N50为2.99 Mb)的最终片段组装(表1,补充表3)。根据Hi-C数据,我们将片段聚类并整理为染色体。对于每个基因组,分别有97.47%、97.42%、94.67%和98.57%的总组装序列锚定到了山莨菪的24条染色体、木本曼陀罗的13条染色体、茄参的24条染色体和枸杞的12条染色体上(图1a,补充表4–7)。四个染色体水平的组装基因组表现出高度一致性,因为来自Hi-C数据的最强信号集中在预期的对角线上(补充图3)。
Category | 山莨菪 | 枸杞 | 木本曼陀罗 | 茄参 |
---|---|---|---|---|
Sequencing | ||||
Platform | Nanopore | PacBio | PacBio | PacBio |
Genome-sequencing depth (X) | 105.77 | 35.57 (valid) | 20.09 (valid) | 33 (valid) |
Assembly | ||||
Estimated genome size (Mb) | 1198 | 1408 | 1517 | 756 |
Assembled genome size (Mb) | 1249 | 1538 | 1548 | 712 |
N50 of scaffolds (bp) | 49,959,515 | 132,783,878 | 121,782,173 | 28,080,016 |
No. of contigs | 205 | 1,406 | 1,398 | 808 |
N50 of contigs (bp) | 23,808,256 | 2,994,494 | 7,701,694 | 25,262,060 |
GC content of the genome (%) | 37.05 | 37.66 | 35.22 | 35.18 |
Anchored to chromosome (%) | 97.47 | 98.53 | 97.40 | 94.67 |
Complete BUSCOs (%) | 98.10 | 94.90 | 98.10 | 98.30 |
Annotation | ||||
Percentage of repeat sequences (%) | 65.68 | 70.22 | 79.0 | 70.11 |
LTR rate (%) | 43.07 | 44.48 | 58.37 | 36.62 |
No. of predicted protein-coding genes | 46,606 | 54,946 | 32,347 | 29,193 |
Average gene length (bp) | 4846.05 | 3775.38 | 3880.88 | 5447.13 |
Average CDS length (bp) | 1134.68 | 1017.84 | 1128.02 | 1282.79 |
Mean exon/intron length (bp) | 216.06/872.93 | 236.46/834.45 | 230.10/705.45 | 222.87/875.65 |
Mean exon number per gene | 5.25 | 4.30 | 4.90 | 5.76 |
a. 显示了茄参、山莨菪、木本曼陀罗和枸杞的基因组形态和 Circos 图。不同的轨道(从外向内)依次表示:(I)基因密度;(II)鸟嘌呤-胞嘧啶(GC)含量;(III)LTR-Gypsy 转座子密度;(IV)LTR-Copia 转座子密度。 b. 同义置换水平(Ks)在共线性同源基因中的分布情况。 c. 比较山莨菪与木本曼陀罗以及茄参之间的共线性点图。 d. 12 个物种的系统发育树及基因家族的进化。节点旁的黑色数值表示该特定节点的估计分歧时间(MYA,百万年前)。基因家族扩展和收缩事件的数量(p 值≦ 0.01)分别以红色和蓝色表示。
我们通过多种方法评估了基因组组装的质量。超过98.78%的 Illumina 短读段准确地映射到四个基因组上。测序的转录组数据也表现出较高的映射率,范围从81.10%到97.37%(补充表8)。组装的转录本被映射到基因组上,超过70.25%的转录本长度超过了各物种每条染色体的一半(补充数据1)。进行了 BUSCO 分析,发现三种 HS 产生物种中超过98%的 BUSCOs 可以被完全检索到,而在非HS产生物种枸杞中则获得了95%的完整 BUSCO 分数(补充表9)。这些结果确立了本研究所描述的四个基因组的高准确性、连续性和全面性。