The sage genome provides insight into the evolutionary dynamics of diterpene biosynthesis gene cluster in plants
鼠尾草基因组为植物二萜生物合成基因簇的进化动态提供了洞察
亮点
• 提出了一份药用鼠尾草(Salvia officinalis)的染色体级别基因组
• 一个由两套二萜生物合成基因组成的簇在药用鼠尾草(S. officinalis)中进化
• CYPs的分化导致根和芽二萜类化合物的氧化作用变化
• 在一个簇中分组的基因可以被差异性地调控
摘要
广泛栽培的药用和观赏植物鼠尾草(Salvia officinalis L.)是地中海原产的唇形科常绿灌木。我们组装了一个高质量的鼠尾草基因组,大小为480 Mb,分布在七条染色体上,并鉴定了一个生物合成基因簇(BGC),编码两对二萜合酶(diTPSs)。这些二萜合酶与位于基因簇内外的细胞色素P450(CYPs)基因一起,分别形成了负责芽和根二萜类化合物的两个表达级联,从而将BGC的功能从共同调控扩展到在不同器官中协调代谢产物的生产。系统发育分析表明,鼠尾草类群在早中新世开始分化。在东亚,大多数鼠尾草物种是草本植物,它们在贮藏根中积累二萜类化合物。值得注意的是,在中国鼠尾草S. miltiorrhiza中,二萜BGC已经收缩,且芽级联已经丢失。我们的数据为植物中与生长类型相关的专业化代谢产物生产模式的微进化提供了基因组洞察。
Graphical abstract
引言
植物产生专门的代谢产物,其功能主要在生物相互作用、应激反应和防御反应中发挥作用。这些来自密切相关物种的专门天然产物通常具有相似的骨架,但在化学修饰和产生存储的特定组织或器官方面可能存在差异。这些差异在理解植物适应中植物化学物质的作用方面具有重要意义,并有助于确定具有特定生物活性的结构,以供药用或农药利用(Jacobowitz和Weng,2020;Wang等,2019)。
在唇形科中,鼠尾草属(Salvia L.)是最大的属,拥有约1,000种物种,约占该科总物种数的15%(Drew等,2017;Will和Classen-Bockhoff,2017)。一些鼠尾草物种被栽培用于药用(如药用鼠尾草和丹参)、观赏(如一串红)、香料(如南欧丹参)烹饪(如西班牙鼠尾草)用途。药用鼠尾草(sage或common sage)和丹参(Danshen或Chinese sage)在欧洲和东亚地区有着悠久的栽培历史(见图1A)(Ghorbani和Esmaeilizadeh,2017;Zhou等,2005)。
图1. 药用鼠尾草(Salvia officinalis)和丹参(S. miltiorrhiza)中松香烷型二萜的分布
(A)药用鼠尾草(多年生常绿灌木)和丹参(带有红色贮藏根的多年生草本植物)的植物草图。
(B)从6个月大的药用鼠尾草(Saoff)和丹参(Samil)植物的根(粉红色)和叶(绿色)中分离出的二萜类化合物。例如,使用LC-MS测定了ferruginol、11-hydroxylferruginol、sugiol、11-hydroxylsugiol、鼠尾草酸(carnosic acid)、鼠尾草酚(carnosol)、迷迭香酚(rosmanol)和甲基鼠尾草酸(methyl carnosic acid),以及C19和C18去萜类化合物丹参酮IIA(tanshinone IIA)和丹参酮I(tanshinone I)。误差棒表示平均值±标准误差(SEM),n = 3个生物学独立样本。
(C)基于非靶向代谢组分析(见方法)确定了鼠尾草属和丹参中松香烷型二萜和非松香烷型二萜的分布。二萜类化合物在药用鼠尾草的根和叶中均富集。
鼠尾草植物富含两类专门代谢产物,一类是以迷迭香酸为代表的酚类寡聚体,另一类是松香烷型二萜类化合物(Nakao和Fukushima,1934;Wu等,2012;Xu等,2016b)。总体而言,唇形科植物特别富含二萜类化合物。最近对48种物种进行的转录组和代谢组分析估计了共有239种不同的骨架,其中松香烷型是主要的基本骨架类型之一,并且在鼠尾草中已经发展出了大量由次丹参酮二烯衍生的化合物(Johnson等,2019)。药用鼠尾草在其叶片中积累了大量的三环二萜类化合物,如肉桂酸和肉桂醇(见图1B),具有强大的抗氧化和抗生素活性,并被用作食品防腐剂(Kontogianni等,2013),而肉桂醇也被认为是一种抗癌药物(Johnson,2011)。相比之下,丹参中的二萜类化合物主要是由非二萜醌组成,统称为丹参酮(Ma等,2021),其具有C19或C18骨架,在C环上具有一个O-醌基团,以及额外的(第四个)呋喃环(见图1B)。
鼠尾草物种广泛分布于欧亚大陆和美洲,有三个生物多样性中心:中南美洲(约500种)、西南亚-地中海(约250种)和东亚(约100种)(Hu等,2018)。基于分子标记序列,该属已被分为四个系统发育支,西南亚-地中海物种属于第一支,而东亚物种则属于第四支(Will和Classen-Bockhoff,2017)。有趣的是,专门的二萜类化合物分布在药用鼠尾草的根和茎组织中,这是一种多年生常绿灌木。与叶片二萜类化合物相关的是密集覆盖在药用鼠尾草及其近缘地中海唇形科物种叶表面的腺毛(Bruckner等,2014;Krstic等,2006;Venkatachalam等,1984),而松香烷型二萜类化合物主要局限于丹参的根部,丹参是一种东亚草本多年生植物,生长于山谷中并以贮藏根越冬(见图1A和1B)。比较基因组和二萜类生物合成途径为揭示支撑结构多样化化学物质形成及其与植物习性相关的空间分布的遗传网络提供了机会,这是植物适应的重要机制之一。
结果
二萜类化合物的生长习性相关分布
次丹参酮二烯是鼠尾草欧亚物种中常见的松香烷二萜烯。松香烷骨架在多个位置以不同程度发生氧化(图1B),例如C12位(ferruginol),C11,C12位(11-hydroxylferruginol),C7,C12位(sugiol),C7,C11,C12位(11-hydroxylsugiol),C11,C12,C20位(鼠尾草酸,carnosic acid),以及C7,C11,C12,C20位(鼠尾草酚,carnosol)(Ghorbani 和 Esmaeilizadeh, 2017;Li 等,2019)。
为了绘制鼠尾草(S. officinalis)植物中不同二萜类化合物的空间分布,我们对在不同发育阶段采集的叶、根、茎和花进行了非靶向分析。研究发现,来源于次丹参酮二烯的二萜类化合物遍布整个植物体内,在叶和根中检测到的化合物种类数量相似,其中大多数具有C20骨架。不同器官的代谢物谱存在差异:叶和茎中积累了相似的化合物,包括鼠尾草酚和鼠尾草酸,而根中则富集了大量的二萜醇类化合物ferruginol和sugiol(图S1A和S1B)。如文献所述(Gericke 等, 2018),花组织中存在独特的化合物。通过液相色谱-质谱联用技术(LC-MS)的定量分析证实了这些结果(图1C)。
对东亚物种丹参的类似分析表明,非二萜酮类二萜类化合物丰富且主要局限于根部(图1B和1C,以及图S1A),与之前的报道一致(Ma等,2021; Wu等,2012)。在药用鼠尾草中只检测到了六种非二萜类化合物,而在丹参中检测到了33种(图1C)。
丹参基因组的组装和分析
在分类学上,药用鼠尾草是这个标志性且形态吸引人的属的模式物种(Drew等,2017),而高质量的参考基因组对于理解物种间化学差异及其与植物发育的关系至关重要。基于 Illumina 序列的 K-mer 分析和流式细胞术检测,鼠尾草基因组估计大小为 480 Mb,而丹参的基因组大小为 557 Mb(Ma等,2021),黄芩的基因组大小为 408.1 Mb(Zhao等,2019b)。PacBio 长读取(61.2 Gb)导致了 472.2 Mb 序列的组装,由 721 个具有 N50 为 3.05 Mb 的 contigs 组成(表S1–S3)。Bionano DLS 光学图谱技术产生了 597 个超级图谱(N50 为 6.06 Mb),这些图谱根据 Hi-C 数据被分类成七个假染色体(图S2A),与染色体的显微计数结果一致(Patudin,1975; Ranjbar等,2015)。根据 BUSCO(基准通用单拷贝正交)分析,组装的基因组,具有 N50 为 63.8 Mb 和 98.3% 的锚定,达到了较高的完整性(98.9%)(表S2 和图2A)。这些数据表明,已经生成了具有染色体级分辨率的高质量药用鼠尾草基因组。
图2. 药用鼠尾草基因组特征
(A) 基因组的染色体级全景。外部轨迹代表已组装的八个染色体,基因密度,GC含量和重复区域。连接线表示同源片段。
(B) 药用鼠尾草和其他12种被子植物的系统发育树。整个基因组三倍体化(WGT)和倍增(WGD)事件,以及扩张(红色)或收缩(浅绿色)的基因家族数量都有所标示。
(C) 药用鼠尾草基因对在区段重复中的Ks值分布,从左至右的两个峰反映了唇形目中的一次WGD事件和核心真双子叶植物中的古老WGT事件。
(D) 药用鼠尾草、唇形目的丹参和龙舌兰目的中粒咖啡之间的同源性,红色线表示来自唇形目中的WGD事件的区域。
重复序列占据了整个基因组的61.67%,其中33.09%是反转录子,8.74%是Helitron转座子,15.81%是长末端倒置重复(LTRs;表S4)。
将自始预测和来自六个器官的RNA-seq数据(表S2)进行注释后,共注释了31,713个蛋白编码基因模型,其中有29,458个(92.9%)在至少一个数据库中有同源物。在BioCYC中搜索,检索到了参与二次(专门)代谢的7,213个(22.7%)基因。此外,预测了1,833个转录因子(图S2B)。
为进行系统发育基因组学分析,我们选择了其他12个被子植物物种,包括一个ANA级别的(无油樟)、一个单子叶植物(水稻)和10个真双子叶植物,其中四个(柚木(Tectona grandis)、黄芩(Scutellaria baicalensis)、丹参(Salvia miltiorrhiza)和一串红(Salvia splendens))来自唇形科(表S5)。将来自13个物种的429,143个蛋白质进行汇总,预测出了28,128个正交家族,包括379,022个蛋白基因(88.32%),其中8,489个家族是共享的,表明它们存在于被子植物的共同祖先中(图S2C)。在唇形科中,鼠尾草所属的亚科薄荷亚科形成了一个近期分化的单系群(薄荷属进化基因组学协作组,2018)。从234个单拷贝真正的同源对构建的系统发育树中可以看出,薄荷亚科在大约6500–5000万年前(Ma)的古新世时期产生,而鼠尾草属在中新世早期(25–20 Ma)分化,如图2B中在地中海(药用鼠尾草)的第I支、美洲(耀眼鼠尾草)的第II支和东亚(丹参)的第IV支所代表的那样,这表明远距离迁移是物种分化和亚属群形成的驱动力。
当将同源基因的同义替换密度(Ks)的密度绘制出来时(图2C),可以推测出两个峰,一个回响了大约1.32亿年前核心真双子叶植物祖先中发生的整个基因组三倍化(WGT)事件,另一个反映了稍后的整个基因组倍增(WGD),日期约为约7200万年前,可以在唇形目大多数物种的基因组中追溯到,除了木樨科(Julca等,2018; Sollars等,2017)。一致的是,当与龙舌兰目的中粒咖啡进行比较时,唇形目中,跟随γ基因组三倍化事件的薄荷亚目并没有经历WGD(Denoeud等,2014),药用鼠尾草染色体片段的WGD来源在同源区域中是明显的(图2D)。第IV支的丹参具有八个染色体,比药用鼠尾草多一个,这两种物种之间的相对低同源性(60.5%)反映了染色体重排(图2D)。
扩增的基因家族中的CYPs
在鼠尾草基因组中的不同重复类型中(图3A和S2D),相邻(2,178个)和串联(2,054个)重复的起源比区段重复更为近期,因为它们的Ks分布通常较低(图2C和3B)。为了对扩增家族中的基因功能进行分类,我们进行了基因集富集分析。在扩增基因集中,基因本体(GO)术语单氧酶活性是最丰富的类别,这些基因主要由串联和相邻重复组成(图3A),这表明局部重复是植物化学物质创新的重要遗传来源。
图3. 鼠尾草基因组中细胞色素P450基因的分布
(A) 扩增家族(expanded)、移位片段(transposed)以及相邻、串联和区段重复中基因的GO富集。单氧酶和其他氧化还原酶在串联和相邻重复区域以及扩增家族中过度表示。基因比率表示富集基因占该类别总基因的百分比。
(B) 串联和相邻重复中基因对的Ks值分布,较低的Ks值反映了年龄较轻(相对于图2D)。深色阴影表示重叠区域。
(C) 比较了图2C中列出的13个被子植物物种中每个CYP家族的基因扩增情况。热图显示了归一化的基因数目。
(D) 鼠尾草CYP76蛋白的最大似然树。
(E) 鼠尾草CYP71蛋白的最大似然树。
(F) 367个CYP基因在七个染色体上的分布,每条线代表一个基因。
在鼠尾草基因组中,有440个序列被注释为编码CYPs,其中365个蛋白质(>300个氨基酸)被用于构建系统发育树(图S2E)。在鼠尾草中发现了九个CYP家族扩增,其中CYP71(OG0000001)、CYP72(OG0000025)和CYP76(OG0000044)是扩增最多的群体(图3C)。比较了唇形科三个属的五个物种后发现,参与唇形科二萜化合物修饰的CYP76(CYP76AH和CYP76AK)和CYP71(CYP71D和CYP71BE)酶在鼠尾草中有很高的表达(图3D和3E)(Bathe和Tissier,2019)。药用鼠尾草有13个CYP76AH和17个CYP71D(表S6),而东亚物种丹参则只有较少的CYP76AH(四个),但有更多的CYP71D(30个)(Ma等,2021)。
CYP基因,无论是作为单体还是重复体,都分布在鼠尾草的七个假染色体上(图3F)。值得注意的是,大多数CYP76AH和CYP71D基因(每个亚家族都有11个)位于染色体1上,其中有六个CYP76AH和三个CYP71D位于相邻或靠近的位置。加上四个二萜合酶基因,它们构成了一个二萜类化合物生物合成基因簇(DGC),占据了染色体1上的一个640 kb 区域(图4A)。
图4. 二萜合酶在DGC中合成二萜类化合物
(A) 染色体1上的一个二萜类化合物生物合成基因簇(DGC)(在图3F中呈浅绿色阴影),包含四个二萜合酶基因(两个CPSs和两个KSLs)和九个CYP基因(六个CYP76AHs和三个CYP71Ds),如图示。
(B) CPS和KSL催化产生二萜类化合物的反应。
(C) SoCPS1-SoKSL1在根中的表达以及SoCPS2-SoKSL2在茎(叶)中的表达,通过使用Actin(Soff2g00026)作为参考的qRT-PCR确定。对14天龄的植株的根和真正的叶进行了分析。误差条代表平均值±SEM(n = 3个生物独立样品)。
(D) 两种II类(CPS)和两种I类(KSL)二萜合酶(diTPS)的活性以四种可能的组合进行测试。反应在30°C下进行20分钟,产物通过气相色谱-质谱联用(GC-MS)分析;在上图中,(+)-CPP 被碱性磷酸酶转化为copalol。XICs表示提取离子色谱图。相比于未配对的组合,根和叶的配对组合生成的产物(中粒咖啡,miltiradiene)大约高出3倍。
(E) 与根中表达的二萜合酶(SoCPS1和SoKSL1)和叶中表达的二萜合酶(SoCPS2和SpKSL2)共表达的基因,提取出高Pearson相关系数(r > 0.7)的基因,边缘线的粗细表示基因对之间表达水平的相关系数。显示了实验中鉴定的基因:SoCPS1(Saoff1g02127.1)、SoCPS2(Saoff1g02137.1)、SoKSL1(Saoff1g02120.1)、SoKSL2(Saoff1g02122.1);CYP76AH24(Saoff1g02129.1)、CYP76AH55(Saoff1g02125.1)、CYP76AH57(Saoff1g02131.1)、CYP76AH58(Saoff1g02124.1)、CYP76AH59(Saoff1g02121.1)、CYP76AK6(Saoff6g03569.1)、CYP76AK24(Saoff3g00536.1)、CYP71D708(Saoff5g00874.1)。
在叶绿体的甲基-4-磷酸丹参(MEP)途径(见表S7)中合成牻牛儿基牻牛儿基焦磷酸(GGPP),GGPP由第二类二萜合酶环化。然后,第一类二萜合酶去除二磷酸基团并进一步进行环化和/或其他修饰。第二类二萜合酶(TPS-c亚家族)在其活性位点含有DDXXD基序,通常含有单个α-螺旋(α),而第一类酶(TPS-e/f亚家族)含有DXDD基序和一个(β)或两个(βγ)α-螺旋(Zi等人,2014)。从唇形科的二萜合酶中已经取得了显著的进展。在丹参中,没有γ-螺旋结构域的第一类二萜合酶(SmKSL1)通过将由第二类SmCPS1产生的(+)-CPP转化为二萜类化合物(图4B)。
从鼠尾草基因组中,已经注释了69个序列编码的萜类合酶(TPSs),其中49个基因根据蛋白长度可能是功能性的。在六个第一类二萜合酶中,其中两个基因(Saoff5g01897 和 Saoff6g03390)具有完整的 βγ-结构域,类似于参与赤霉素生物合成的倍半萜合酶(kaurene synthase, KS);另外三个基因(Saoff1g02120、Saoff1g02122 和 Saoff7g01306)是 KSL 酶(SoKSL1 到 SoKSL3),参与与喇叭烯相关的二萜类化合物(包括次丹参酮二烯)的生物合成。SoKSL3 与香叶基香树脂醇合酶(sclareol synthase)具有较高的序列相似性(76%),该酶来源于鼠尾草(Salvia sclarea)(Caniard 等, 2012)。
在八个第二类二萜合酶中,SoCPS1(Saoff1g02127)和SoCPS2(Saoff1g02137)可能根据序列比较提供(+)-CPP用于合成丹参类二萜化合物。Saoff5g02841和Saoff7g00522编码了GA生物合成途径的ent-CPP合酶。此外,两个酶(Saoff2g04399和Saoff1g04999)属于第二类二萜合酶的一个不同亚组,前者与鼠尾草(SdKPS)和美国紫珠(Callicarpa americana)中的neo-clerodane二萜类化合物生物合成有关(Chen等人,2017;Hamilton等人,2020)。
14个二萜合酶基因分布在五个染色体上,其中有一半位于染色体1上。值得注意的是,染色体1上的DGC成员包括两个CPS基因和两个KSL基因,以及六个编码CYP酶的基因。
DGC中的四个二萜合酶基因都是可转录的。在植物器官中,编码四个二萜合酶的基因形成了两个表达对,SoCPS1与根中的SoKSL1,SoCPS2与包括叶片在内的茎(包括叶片)中的SoKSL2,通过qRT-PCR确定(图4C)。体外重组的SoCPS1和SoCPS2蛋白将GGPP转化为(+)-CPP,与先前对SoCPS1的表征结果一致。进一步的实验表明,四种可能的组合都产生了二萜类化合物(图4D)。值得注意的是,共表达的偶对,无论是根特异性的还是叶特异性的偶对,其产物周转量都高于空间分离的酶的组合(图4D),这表明在进化过程中,鼠尾草DGC中的第一类和第二类二萜合酶在空间表达模式和催化中形成了配对。鉴于鼠尾草在其根部和茎部(图1B和S1)中不同程度地产生二萜类化合物,簇中的两对二萜合酶可能在各自的二萜类化合物生物合成途径中独立起作用。
不同CYP酶催化的氧化修饰
为了找到在两对二萜合酶之后起作用的候选酶,我们基于从根、叶和不同生长阶段的花朵生成的九个RNA测序(RNA-seq)数据子集(表S2)进行了共表达分析,将6,458个编码酶的基因聚类到23个模块中,并将根和叶表达的二萜合酶对放置在两个模块中。提取与SoCPSs或SoKSLs强相关的基因(r > 0.7,皮尔逊相关系数)导致在根和叶的共表达集中鉴定了许多CYP基因,包括位于DGC中的CYP76AH亚家族基因以及其他地方分布的CYP76AK和CYP71D亚家族基因(图4A-4E)。
为研究鼠尾草中CYP酶的功能,我们利用经过基因工程改造、能够生产ferruginol的酿酒酵母(Saccharomyces cerevisiae)细胞筛选其对二萜类化合物的活性(Ignea等,2016;Scheler等,2016)(图S4A)。在丹参(S. miltiorrhiza)中,CYP76AH1(图5A)在C12位启动次丹参酮二烯的氧化,形成ferruginol,随后通过CYP76AH、CYP76AK和CYP71亚家族的酶进行进一步修饰(Guo等,2013, 2016;Ma等,2021)。在DGC(图4A和图5A)中聚集的六个CYP76AH基因中,SoCYP76AH56由于表达水平极低,未在共表达网络中被检测到(图4E),而SoCYP76AH58在引入酵母系统时未能生成清晰的产物峰。SoCYP76AH24和SoCYP76AH57能够多功能地作用于ferruginol、11-hydroxyferruginol和sugiol(图5B),类似于迷迭香(Rosmarinus officinalis)和希腊鼠尾草(S. fruticosa)中的CYP76AH22-24,这些酶也具有ferruginol合酶活性(Scheler等,2016)。然而,在酵母细胞中,SoCYP76AH24或SoCYP76AH57仅生成少量的sugiol(图5B),表明这两种酶更倾向于优先在ferruginol的C11位进行羟基化。相比之下,CYP76AH59和CYP76AH55优先在C7位作用,将ferruginol转化为sugiol,随后由CYP76AH55进一步羟基化为11-hydroxysugiol(图5B)。CYP76AH55和CYP76AH59仅在根部表达(图5C和图S4B),因此鼠尾草的根中积累了高水平的sugiol(图1B)。这些结果表明,药用鼠尾草(S. officinalis)中CYP76AH家族的酶在底物偏好上存在差异,导致了生物合成途径的分支(图5D)。
图5. CYP对次丹参酮二烯的差异氧化修饰
(A) 选择的鼠尾草(So)CYP与丹参(Sm)、鼠尾草(Sf)和迷迭香(Ro)的近同源物或同源物的系统发育树。
(B) 在产生ferruginol的酿酒酵母细胞中对CYP76AH、CYP76AKs(与CYP76AH24)、以及CYP71D708的酶活进行测定,如图所示。通过LC-MS确定酵母提取物中的产物。
(C) 通过定量PCR确定14天生植物的根和叶中CYP基因的表达。Actin(Soff2g00026)用作参考。误差条代表平均值±SEM(n = 3个生物独立样品)。
(D) 由CYP酶和其产物生成的分枝途径。绿色表示叶表达基因和二萜产品。
CYP76AK亚家族的酶,例如来自希腊鼠尾草(S. fruticosa)和苹果鼠尾草(S. pomifera)的CYP76AK6和CYP76AK8,能够连续催化C20羟基化和羧基化,生成鼠尾草酸(carnosic acid)和鼠尾草酚(carnosol)(Ignea等,2016;Scheler等,2016)。我们检测到来自药用鼠尾草(S. officinalis)的三个CYP76AK基因,其中SoCYP76AK6(Saoff6g03569.1)和SoCYP76AK24(Saoff3g00536.1)在酵母中也能够生成鼠尾草酸和鼠尾草酚,前者的活性比后者高10倍(图5B)。与SoCYP76AK6在地上部位的表达一致(图5C和图S4B),鼠尾草酸及其相关代谢物主要在叶片(图1B)和其他地上器官中检测到(图S1)。
丹参(S. miltiorrhiza)中的CYP71D375和CYP71D373在丹参酮途径中催化D环(呋喃环)的形成(Ma等,2021)。在鼠尾草中检测到的17个CYP71D基因中,SoCYP71D708由位于染色体5上的基因(Saoff5g00874)编码,与SmCYP71D375是近似同源基因。SoCYP71D708将ferruginol转化为分子式为C20H30O2的产物,经核磁共振(NMR)鉴定为hinokiol(图5B、5D和图S5),该产物可能作为进一步修饰的底物。因此,SoCYP71D708作用于A环,而非像丹参中的同源酶那样形成D环。
总结而言,SoCPS1和SoKSL1组成的二萜合成酶对,连同SoCYP76AH55、SoCYP76AH57、SoCYP76AH59和SoCYP76AK24,在根部形成一个活跃的代谢途径,生产二萜醇和酮类化合物。而另一对二萜合成酶(SoCPS2和SoKSL2)在地上部分(如叶片)启动二萜类化合物的生物合成途径,并与CYP76AH24和CYP76AK6共同合成鼠尾草酸和鼠尾草酚(图5D)。虽然编码两对二萜合成酶及CYP76AH酶的基因聚集在染色体1上,两个CYP76AK基因分别散布在染色体3(CYP76AK24)和染色体6(CYP76AK6)上(表S6)。此外,本文鉴定的根特异性基因CYP71D708(图5C)位于DGC之外(染色体5上)。其对A环的羟基化活性可能是A环芳构化的重要一步(图1B)。
聚集基因的差异调控
位于DGC中的六个编码CYP76AH酶的基因的表达差异很大,类似于编码四个二萜合酶的基因。在该簇的中间,两个基因(CYP76AH24和CYP76AH57)在整个植物中广泛表达,包括叶片、
茎和根部;在簇的左端位置的四个基因中,三个(CYP76AH59、CYP76AH58和CYP76AH55)在根部上调表达,CYP76AH56的转录本在根和叶中均无法检测到(图5C和S4B)。
为寻找调控因子,我们从与二萜合成酶基因(diTPS基因)相关的共表达模块中提取了转录因子(TF),并分析了这些基因的1.5 kb启动子区域中的转录因子结合位点(TFBS)。结合这些分析结果,分别在根和叶中构建了两个调控网络(图6A)。值得注意的是,一个HD-ZIP IV基因(Saoff2g02051)与叶片二萜途径中的SoCPS2和SoKSL2呈共表达关系。该基因编码的含同源盒(homeobox)蛋白与番茄(S. lycopersicum)中的Woolly具有较高的序列相似性(78.5%)。Woolly通过与SlMYC1相互作用,调控腺毛发育和萜类化合物的生物合成(Hua等,2021;Xu等,2018)。
图6. 鼠尾草(Sage)DGC基因调控的基因组概览
(A) 与两对二萜合酶基因(Pearson相关系数>0.7)共表达且在其启动子区域(1.5 kb)具有TF结合位点的转录因子基因。
(B) 染色质可接近峰的火山图。在ATAC实验中,21,709个基因在叶片和根部表现出不同程度的信号强度(FDR≤0.05)。标记了SoCPSs、SoKSLs、CYP76AK24和CYP71D708的点。
(C) 根部表达的DGC基因启动子区域中转录因子(TF)结合位点(motifs)的富集。这些motifs由HOMER鉴定。
(D) IGV浏览器中DGC基因的ATAC-seq(蓝色)和RNA-seq(红色)轨迹。轨迹下方给出了每个基因的基因组区域,并用阴影标出了具有可接近信号的启动子区域。数据来源于14天生植物的叶片和根组织,三个生物学重复。有关RT-PCR检测到的基因表达,还请参见图3和图4。
活跃的基因表达涉及特定的TFBSs(motifs),它们表现出“开放的染色质”的特征,易受核酸酶或转座酶的影响(Bell等人,2011)。在燕麦中,avenacin BGC表现出细胞类型特异性的染色质重塑(Wegel等人,2009)。为了检验鼠尾草二萜生物合成基因的差异调控,我们使用14天生植物的叶片和根组织进行了转座酶可接近染色质测序(ATAC-seq)实验(图S6)。总共鉴定了47,814个高置信度的开放染色质峰,其中2,616个峰(log2倍变化>1,FDR <0.05)和6,876个峰(log2倍变化<1,FDR <0.05)在叶片和根部具有更高的可接近性,分别支持了它们在染色质水平上的差异调控(图6B、S6和S7)。与其在根中的优先表达一致,SoCPS1、SoKSL1、SoCYP76AH59和CYP76AH55的启动子在根中具有更高的染色质可接近性,而广泛表达的CYP76AH24启动子在叶片中显示出明显的ATAC-seq峰(图6B和6C)。然而,尽管它们在叶中的表达明显,但SoCPS2和SoKSL2基因的转座酶敏感位点的信号很弱,可能是因为仅有很小一部分叶片细胞专门用于合成二萜化合物,例如据报道罗勒的腺毛细胞(Bruckner等人,2014)。
通过鉴定富集在根部表达的DGC基因的启动子区域中的顺式元件,我们发现MYB、WRKY、热休克因子和C2H2锌指家族的转录因子结合位点是根部二萜生物合成调控的良好候选者(图6D)。MYB转录因子通常参与植物的基础代谢和专门代谢调控(Dubos等人,2010),已经显示在鼠尾草毛根中促进二萜生物合成(Ding等人,2017)。而茉莉酸响应的AP2/ERF转录因子已经显示在长春花(Catharanthus roseus)和烟草(Nicotiana tabacum)中作为生物碱生物合成的主要调节因子(van der Fits和Memelink,2000;Shoji等人,2010)。综上所述,我们的数据显示,一些参与专门代谢的酶基因被分组在一个簇中,但可以被不同调控,不论它们在DGC内的相对位置如何。这表明,差异调控是独立的顺式作用控制元件的特征。
唇形目 DGC的演化
对微共线性区块的比较发现,咖啡树(Coffea canephora,龙胆目)和金鱼草(Antirrhinum majus,唇形目)中存在DGC(图7A),但在葡萄(Vitis vinifera,葡萄目,蔷薇类植物)等非唇形类植物的共线性区域中未检测到。这种分布模式表明,DGC在唇形类植物(Lamiids)与其他菊类植物(Asterids)分化早期便已出现,早于唇形目、龙胆目和茄目等支系的分化。
图7. 唇形目二萜生物合成基因簇的演化
(A) 微共线性分析显示,DGC在茜草科(Rubiaceae,龙胆目)的咖啡树(C. canephora)和车前科(Plantaginaceae,唇形目)的金鱼草(A. majus),以及唇形科(Lamiaceae,唇形目)的四种植物(Tectona grandis、Salvia officinalis、Salvia miltiorrhiza和Salvia bowleyana)中均有发现。在咖啡树的DGC中出现了CYP71D基因,而在所分析的唇形科植物的DGC中,既包含CYP71D基因,也包含CYP76AH基因,同时还发现了TPS基因。
(B) 药用鼠尾草(Salvia officinalis)和其他唇形目植物中TPS和CYP直系同源蛋白的数量统计。
(C) 二萜合酶(diTPS,包括CPS和KSL)的系统进化树,涵盖了咖啡树(C. canephora,Cc)、金鱼草(A. majus,Am)、柚木(T. grandis,Tg)、鼠尾草(S. officinalis,So)、丹参(S. miltiorrhiza,Sm)和保黎鼠尾草(S. bowleyana,NDS)。包含更多二萜合酶的系统树见图S3C和S3D。
(D) CYP76AH和CYP76AK基因的系统进化树,展示了鼠尾草(S. officinalis)中的这些基因及其在丹参(S. miltiorrhiza)和美洲紫珠(Callicarpa americana)DGC中的近似同源基因。
(E) 示意图显示了在药用鼠尾草(S. officinalis)DGC中两对二萜合酶(CPS-KSL)的形成过程,以及由于基因丢失和假基因化,丹参(S. miltiorrhiza)中地上部(叶片)表达的那一对二萜合酶的丧失。
对药用鼠尾草(Salvia officinalis)DGC中二萜合酶(diTPS)及其近缘同源基因的系统进化分析表明,SoCPS1和SoCPS2的祖先大约在6500万年前分化,而KSL1和KSL2则是通过鼠尾草谱系或鼠尾草及其近缘属祖先中发生的局部复制事件进化而来的,这一事件发生在约2500万年前鼠尾草开始辐射之前(图7B、7C、S3A和S3B)。
除了二萜合酶外,CYP76AH和CYP71D基因也常出现在DGC中,但每个家族基因的数量因物种而异(图7B)。CYP71D基因在金鱼草(Antirrhinum majus)的DGC中也有发现,表明它们是DGC中的“老成员”(图7A)。CYP76AH基因(Tg05g04020.t1)存在于与鼠尾草远缘的唇形科植物柚木(Tectona grandis)的共线性区域中(Mint Evolutionary Genomics Consortium, 2018;Zhao等,2019a),其祖先基因在鼠尾草DGC中扩增,形成了6个成员(图7A-7D)。有趣的是,尽管CYP76AH58和CYP76AH55可能是通过直接复制产生的,它们并未与CYP76AH59共享一个最近的共同祖先;CYP76AH59位于DGC左端,更接近于右侧的CYP76AH24和CYP76AH57(图5A)。
在鼠尾草基因组中,三个CYP76AK基因(Saoff2g02613、Saoff3g00536、Saoff6g03569)分布于三条染色体上,与其他鼠尾草物种(如丹参)的情况一致。然而,我们发现,在与鼠尾草系统发育关系较远的唇形科植物美洲紫珠(Callicarpa americana)中,三个CYP76AK亚家族基因(Calam.10G111300-10G111500)排列紧密,占据DGC中的一个片段(图7D)。这表明CYP76AK家族可能通过与CYP76AH家族的共同祖先基因的串联或邻近复制起源,随后转移到其他基因组区域。这些数据表明,在唇形科植物的进化和物种分化过程中,DGC具有动态特性,包括酶基因的连续生成、招募和分裂。
丹参(S. miltiorrhiza)DGC覆盖一个包含两个CPS基因、一个KSL基因和三个CYP76AH基因的370 kb片段(Ma等,2021;Xu等,2016a),与鼠尾草DGC相比明显缩小。如共线性比对所示(图7A),丹参DGC的基因顺序与鼠尾草一致,但地上部特异表达的KSL(SoKSL2的同源基因)及三个系统发育较古老的CYP76AH基因(CYP76AH59、CYP76AH58和CYP76AH56)已丢失(图7D)。此外,地上部CPS基因(SmCPS2)在丹参中已被沉默或至少在丹参酮生物合成中失去活性(Li等,2017)。显然,丹参物种分化过程中发生的基因组变化导致其地上部松香烷型二萜的生物合成被中断(图7E)。
药用鼠尾草是一种多年生常绿灌木,原产于地中海地区,鼠尾草属植物从这里开始辐射(Drew等,2017;Hu等,2018)。相比之下,东亚所有的鼠尾草物种均为草本植物,其中许多,包括丹参,都是具有储藏根的多年生植物。在根中积累特化代谢产物是一种适应性特征(Weston等,2012)。在丹参中,用于合成地上部二萜类化合物的基因已丢失或沉默,而根部二萜途径则专门生产丹参酮,这是一类特定的去萜化合物。这可能反映了其从常绿灌木到以地下芽在春季萌发的草本多年生植物的生长习性转变的适应过程。
讨论
唇形科(Lamiaceae)是被子植物中第六大科,包括230多个属和约7000种草本、灌木和乔木。越来越多的证据表明,传统分类下的鼠尾草属(Salvia)并非单系群(Drew等,2017;Will和Classen-Bockhoff,2017)。地中海物种鼠尾草(S. officinalis)被广泛栽培,属于狭义鼠尾草属(Salvia s.s.)。其高质量基因组将有助于系统研究唇形科其他植物。这些植物通常具有形态吸引人的唇形花和丰富的次生代谢产物,被广泛用于化妆品、食品和医药行业(Lichman等,2020;Mint Evolutionary Genomics Consortium,2018)。
龙胆目(Gentianales)、茄目(Solanales)和唇形目(Lamiales)共同构成了菊类植物中的一个超支系——唇形类(Lamiids)。DGC在这三个目中物种的共线性区域中均有发现,但其编码的生物合成途径在不同谱系中已经多样化。在唇形科的鼠尾草属以及可能的唇形亚科(Nepetoideae)中的许多其他属中,DGC已特化于合成松香烷型二萜和去萜类化合物;而在茄科(Solanaceae)的茄属(Solanum)中,成簇的二萜合酶(diTPS)已分化为从cis-戊二烯基二磷酸合成单萜和倍半萜(Matsuba等,2013)。
单子叶植物中也存在二萜生物合成基因的簇集。例如,在水稻(Oryza sativa)中,有两个基因簇分别位于第4染色体和第2染色体,参与喇叭烯型二萜的生物合成。其中,CYP76M酶具有广泛的催化能力,在二萜骨架的早期羟基化过程中发挥功能,类似于唇形科中的CYP76AH酶(Swaminathan等,2009;Wang等,2012a)。此外,水稻在第7染色体上最近进化出一个二萜基因簇(DGC7),编码一个TPS(OsTPS28)和四个CYP71Z,合成5,10-二酮-卡苯(5,10-diketo-casbene)。在大多数粳稻品种中,OsTPS28和OsCYP71Z21的编码基因缺失,因此与卡苯相关的化合物也不存在(Zhan等,2020),这体现了亚种水平上生物合成基因簇(BGC)变化的一个实例。
到目前为止,不同植物谱系中已检测到超过30个BGC(Polturak和Osbourn,2021),共表达是BGC的一个常见特征(Schlapfer等,2017;Topfer等,2017)。例如,紫杉树(Taxus)中紫杉醇(paclitaxel)的生物合成从二萜类化合物紫杉二烯(taxadiene)开始,Taxus chinensis基因组中包含一个紫杉二烯生物合成基因簇,这些基因在组织中的表达及对茉莉酸处理的响应具有高度协调性(Xiong等,2021)。然而,紫杉醇生物合成的所有基因并未都集中在该基因簇中(Cheng等,2021)。相比之下,在药用鼠尾草中,两对二萜合酶(diTPS)构成了一个簇中的双核心,并分别与部分重叠的CYP基因组成两条表达级联途径,分别负责地上部和根部的二萜类化合物生产。药用鼠尾草的DGC是一个基因簇中包含两套生物合成基因组的典型例子。
鼠尾草属起源于西亚-地中海地区,并在中新世早期向东亚和美洲辐射(Will和Classen-Bockhoff,2017;Hu等,2018;Ramirez-Barahona等,2020)(图2B)。系统发育分析估计,中国约10%的被子植物属起源于这一时期(Lu等,2018)。青藏高原隆升和季风系统的发展导致的地形和气候变化加速了生物多样性的分化(Favre等,2015)。这种环境条件的变化使植物获得了新的结构特征,如生长习性的变化(Zanne等,2014)。与地中海常绿灌木不同,东亚的大多数鼠尾草物种是草本植物(Hu等,2018)。其地上部分在秋季开花后凋谢,而多年生根在寒冷潮湿的冬季存活。与这种多年生草本生长习性相关的是次生代谢的变化,即加强了根中特化二萜类化合物的生产,同时减少了地上部的产量,并生成了新的化学结构。在地中海灌木如鼠尾草中,腺毛是适应强光和干燥炎热条件的重要结构(Hauser,2014),而生活在东亚山谷中的草本植物通常面临较低的光照水平。对与生长习性相关的代谢途径变化的进一步研究,将有助于我们理解植物化学物质在植物与环境相互作用中的作用。
研究的局限性
批量RNA测序和ATAC-seq分析揭示了组织样本中细胞群体的平均基因表达水平或染色质可及性,发现了分别参与根和地上部二萜类生物合成的两套基因。然而,批量组织样本未能区分细胞异质性。特别是在叶片中,腺毛是二萜类化合物活跃合成的场所,但它们仅占整个叶细胞的一小部分。因此,单细胞水平的空间转录组学有望更好地揭示植物组织中特化代谢途径的全貌。
实验模型和样本详情
鼠尾草(Salvia officinalis,收藏编号S1063)和丹参(Salvia miltiorrhiza,收藏编号S1001)的植株均来自国家林业和草原局(NFGA)位于上海辰山植物园的唇形科种质资源库。这些植物在生长室内维持在16小时光照/8小时黑暗周期下培养,光源为冷白荧光灯,温度为23 ± 2°C。
方法
基因组测序
基因组DNA通过标准CTAB方法提取,其质量通过琼脂糖凝胶电泳验证,并用NanoDrop光谱仪(Thermo Scientific)进行光谱分析。来自单株植物叶片组织的DNA用于Hi-C文库的构建和测序。 PacBio测序文库由Novogene(北京,China)构建,生成了20 kb DNA文库,并在PacBio Sequel平台上使用P6/C4化学试剂进行测序。Hi-C文库由Nextomics Bioscience(武汉,China)构建。
基因组大小估算
基因组大小首先通过药用鼠尾草的C值(Plant DNA C-values Database | Royal Botanic Gardens, Kew)计算得出(1 pg = 978 Mb),并通过流式细胞仪进一步测量。植物细胞核按照Nuclear Isolation and Staining Solution(NPE,美国)的操作手册进行染色。一平方厘米的鼠尾草嫩叶在染色液中用锋利的刀片切碎。用流式细胞仪分析相对核基因组大小,番茄基因组作为参考。基因组大小最终通过Illumina短读测序数据的Jellyfish程序(http://github.com/jamesturk/jellyfish)和GenomeScope包程序(R软件)进行估算。
基因组组装与注释
通过CANU 1.3预组装修正后的PacBio读长数据(Koren等,2017)。冗余序列通过Haplomerger 2(Huang等,2017)移除,生成初步contig序列。利用Minimap 2(Li, 2018)对长读长进行精修,Burrows-Wheeler Alignment(BWA)(Li和Durbin, 2010)用于短读长比对,生成一致性序列。通过Pilon(Walker等,2014)进一步打磨组装的基因组,最终生成contig序列。 Bionano Scaffold文库由Nextomics Bioscience(武汉,China)构建,使用Hybrid Scaffold将contig组装成超级scaffold。Hi-C组装通过HiC-Pro评估文库质量(Servant等,2015),超级scaffold通过3D-DNA(Dudchenko等,2017)映射到基因组草图上。
重复序列分析通过EDTA(Extensive De novo TE Annotator)进行,LTR序列由LTR_Finder(Ou和Jiang, 2019;Xu和Wang, 2007)和LTRharvest(Ellinghaus等,2008)识别,结果通过LTR_retriever整合并估算插入时间(Ou和Jiang, 2018)。DNA元素由TIR_Learner(Su等,2019)和HelitronScanner(Xiong等,2014)预测。
基因组注释基于三组数据:(1)Illumina平台的短读RNA-seq,(2)PacBio平台的长读RNA-seq,以及(3)Uniprot数据库的参考蛋白预测。RNA-seq数据来自9种组织(见表S3),并均匀混合生成全长转录组数据。转录组注释通过Hisat2(Kim等,2019)比对RNA-seq文件,并通过StringTie(Pertea等,2015)组装完成。PASA用于拼接转录本并注释候选基因(Haas等,2008)。各方法预测的基因模型通过EVidenceModeler合并。蛋白编码基因的功能通过比对到Nr(NCBI非冗余数据库)、GO(基因本体)、InterProScan和KEGG数据库进行预测。
基因组范围内非编码RNA的预测通过Rfam中的Infernal工具完成(Nawrocki和Eddy, 2013)。tRNA和rRNA分别使用tRNAscan-SE和Blastn识别。
基因组演化
通过OrthoFinder2(Emms和Kelly, 2019)识别Amborella trichopoda、Oryza sativa、Vitis vinifera、Theobroma cacao、Arabidopsis thaliana、Solanum lycopersicum、Coffea canephora、Antirhinum majus、Tectona grandis、Scutellaria baicalesis、Salvia miltiorrhiza和S. splendens物种的直系同源基因。通过IQ-TREE基于单拷贝直系同源基因构建系统发育树和P450s树(最大似然法,1000次bootstrap重复)。 使用PAML的MCMCTree模块估算中性进化速率和物种分化时间(Xu和Yang, 2013;Yang, 2007)。 基因家族扩张或收缩通过CAFÉ软件识别(Mendes等,2020)。 染色体共线性分析由MCScanX-transposed完成(Wang等,2012b, 2013),微共线性可视化通过JCVI程序绘制(Tang等,2008)。
萜烯合酶(TPSs)的系统发育树通过基于蛋白质序列的邻接法构建。使用Hmmsearch鉴定细胞色素P450基因,并基于同源氨基酸序列构建邻接法的系统发育树,预测其亚家族。CYP76AH、CYP76AK和CYP71D亚家族中部分CYP基因由David Nelson命名(drnelson1@gmail.com)。
TPS和CYP的功能鉴定
-
TPS酶:通过RT-PCR获得开放阅读框(ORFs)。将TPS ORF插入到大肠杆菌表达载体pET21c中,用于重组蛋白生产。在含有500 μL缓冲液的反应体系中测试酶活性,缓冲液包括20 μg纯化的重组蛋白、25 mM羟乙基哌嗪乙磺酸(HEPES,pH 7.0)、5 mM氯化镁(MgCl₂)、5 mM二硫苏糖醇(DTT)和100 μM GGPP(Sigma-Aldrich),反应在30°C下进行1小时。用800 μL己烷提取反应混合物,并通过气相色谱-质谱联用(GC-MS)分析产物。
-
CYP酶:将CYP ORF克隆至pYES2载体,并引入表达拟南芥细胞色素P450还原酶的酿酒酵母WAT11中。体外实验和产物收集按照Tian等(2018)的方法进行。通过整合和表达CYP基因生成生产ferruginol和其他二萜化合物的酵母菌株(图S4A)。将含有半乳糖诱导型酵母BTS1、tHMG1、ACS2和Salvia SmCPS-SmKSL盒的载体与表达CYP的载体共转化。挑取单菌落,在含20 g/L葡萄糖的SD液体培养基中于28°C培养过夜,收获细胞并重悬于补充20 g/L半乳糖的SD培养基中以诱导目标蛋白表达。培养1天后收集酵母细胞,用甲醇提取产物并通过LC-MS检测。
共表达分析与ATAC-seq
-
共表达分析:使用9个样本(表S2)的RNA-seq数据,每个样本有三个生物学重复。通过WGCNA将6,458个编码酶的基因聚类到模块中,使用genies3提取与SoCPS1-SoKSL1和SoCPS2-SoKSL2对共表达的转录因子,Pearson相关系数(r > 0.7)。
-
ATAC-seq:按Wang等(2020)的方法进行。采集鼠尾草(S. officinalis)14天苗的叶片和根部组织(三个生物学重复),在500 mL裂解缓冲液(15 mM Tris-HCl pH 7.5、20 mM NaCl、80 mM KCl、0.5 mM亚精胺、5 mM 2-巯基乙醇和0.2% Triton X-100)中切成小块。经过分离、离心和洗涤后,将纯化的细胞核与Tn5转座酶和打断缓冲液(Vazyme Biotech)在37°C下孵育30分钟。纯化并扩增后,文库由诺禾致源(北京)进行ATAC测序。原始数据通过fastp修剪,并用BWA比对到参考基因组。峰值调用使用MACS2,峰值注释由ChIPseeker完成,基序识别使用HOMER,差异染色质可及性分析由DiffBind完成。ATAC-seq和RNA-seq数据轨迹通过IGV浏览器可视化。
代谢物分析
-
GC-MS:使用Agilent 7890系列气相色谱系统和Agilent 5973网络质谱检测器,载气为氦气(1 mL/min),无分流进样,使用Agilent HP-5MS柱(5%苯基甲基硅氧烷,长30.0 m,直径250.00 μm,膜厚0.25 μm)。温控程序为:初始温度50°C(保持2分钟),以20°C/min升至200°C,再以5°C/min升至250°C,最后以100°C/min升至320°C(保持5分钟)。化合物通过与NIST数据库比对进行鉴定。
-
HPLC:使用Dionex UltiMate 3000 HPLC系统和Q Exactive Plus质谱仪(Thermo Scientific),以正离子和负离子模式采集MS数据,喷雾电压4 kV,毛细管温度320°C,归一化碰撞能量(NCE)设为20、40、70。流动相为含0.1%甲酸的H₂O(A)和含0.1%甲酸的乙腈(B),柱温40°C,流速0.42 mL/min,梯度程序为:0分钟,80%A/20%B;1分钟,80%A/20%B;6.2分钟,40%A/60%B;11分钟,10%A/90%B;13分钟,10%A/90%B(保持3分钟平衡),总运行时间16分钟。结果通过Compound Discoverer 3.0(Thermofisher)分析。
化合物鉴定
-
核磁共振(NMR):在Bruker AVANCEⅢ™ 500光谱仪上记录¹H、¹³C和二维NMR光谱。以三甲基硅烷(TMS)为内标报告化学位移。
-
旋光度:使用autopol I光谱仪(Rudolph Research Analytical)测定。
定量与统计分析
多次实验结果以平均值±标准误(SEM)表示,使用GraphPad Prism 8。对于RNA-Seq和ATAC-Seq,表达量满足FDR ≤0.05且log₂倍数变化≥2或≤0.5的基因,以及GO过表达分析或基序富集分析中满足p值≤0.05的基因,均被认为显著差异表达。所有实验的统计细节见图例说明。