13个黄杞属叶绿体基因组-文献精读68

Plastome evolution of Engelhardia facilitates phylogeny of Juglandaceae

胡桃科植物黄杞属的质体基因组进化促进了胡桃科的系统发育研究

五种肉苁蓉属植物叶绿体基因组-文献精读25_植物叶绿体dna有4个rps12-CSDN博客

摘要

背景

黄杞属(胡桃科)是一个具有重要生态和经济价值的属,广泛分布于东亚的热带和亚热带地区。尽管之前基于多个分子标记的研究为黄杞属的物种界定和种群地理学提供了深刻的见解,但黄杞属的母系基因组进化以及其在胡桃科中的系统发育仍需全面评估。在本研究中,我们对来自8种黄杞属植物的14个样本及外群植物四川崖摩的质体基因组进行了测序,并结合胡桃科36种和6种外群植物的已发布数据,以测试系统发育解析度。此外,还进行了质体基因组的比较分析,以探讨黄杞属及整个胡桃科的质体基因组进化。

结果 13个黄杞属质体基因组在基因组大小、基因内容和排列顺序上高度相似,表现出典型的四分结构,长度从161,069 bp到162,336 bp不等。发现了三个突变热点区域(TrnK-rps16、ndhF-rpl32和ycf1),可以作为进一步系统发育分析和物种鉴定的有效分子标记。插入和缺失(InDels)可能是胡桃亚科和青冈亚科质体基因组进化的重要驱动力。在胡桃科中共鉴定出十个最优密码子,突变压力主要影响了密码子的使用。胡桃科的78个编码蛋白质的基因经历了松弛的纯化选择,只有rpl22和psaI基因显示出正选择(Ka/Ks > 1)。系统发育结果完全支持黄杞属是一个包括两个组的单系群,且胡桃科分为三个亚科。黄杞属起源于晚白垩世,并在晚始新世分化,而胡桃科起源于早白垩世,并在中白垩世发生分化。系统发育与分化时间的结果不支持黄杞属进化史中发生快速辐射。

结论 本研究完全支持将黄杞属按组分类以及胡桃科分为三个亚科的分类处理,并确认了利用质体基因组序列进行系统发育解析的能力。此外,我们的研究结果也为进一步研究黄杞属及整个胡桃科质体基因组的进化过程、速度和模式奠定了基础。

引言

胡桃科(Juglandaceae)包含约60个现存物种,分属于约10个属,是壳斗目中的一个木本植物科,主要分布在亚热带至热带森林中【1,2,3】。该科的成员在当地森林生态系统中发挥重要作用,其中一些是重要的坚果、木材和药用树种。根据APG IV(2016),胡桃科分为三个亚科:崖摩亚科(Rhoipteleoideae)、青冈亚科(Engelhardioideae)和胡桃亚科(Juglandoideae)【4】。在胡桃科的三个亚科中,胡桃亚科的物种在北半球的温带落叶林中十分常见,而青冈亚科和崖摩亚科的物种主要分布在亚热带和热带森林【2】。

在青冈亚科中,黄杞属(Engelhardia Lesch. ex Blume)的物种广泛分布于东亚的热带和亚热带地区【5】,这些物种广泛用于木材和茶叶,还在生态系统中发挥着重要作用【6, 7】。中国约有9种黄杞属植物,主要分布在西南部、南部至东南部地区【7】。黄杞属的物种为落叶树、半常绿树或常绿树,常具偶数羽状复叶,雌雄同株或异株,果实为坚果状,当果实成熟时,苞片生长,膜质,并与果实合生成具有三裂翼的小坚果【8】。在此前关于黄杞属物种界定的研究中【7, 9】以及对两种树种(即E. roxburghiana和E. fenzelii)的种群地理学研究中【10】,使用了结合的质体区段(psbA-trnH、trnL-trnF、rps16、trnS-trnG和rpl32-trnL)、一个核核糖体内转录间隔区(nrITS)和微卫星(nSSR)数据。然而,除了个别案例【3, 11, 12】外,黄杞属多样质体基因组的比较分析至今仍较为缺乏。

质体基因组作为植物细胞中的关键细胞器,在进化和系统发育研究中发挥着重要作用【13, 14】。其重要性在于母系单亲遗传和高度保守的结构,使其在揭示植物进化历史和关系方面极具价值【15, 16】。质体基因组通常是一个闭合的环状四分结构,由双链DNA分子组成,包括一个大单拷贝区(LSC)、一个小单拷贝区(SSC)和一对反向重复区(IRa/IRb)【17】。早期的系统发育分析使用了部分质体DNA序列。然而,这些片段信息不足以区分密切相关的植物物种,而完整的质体基因组可以提供深入的信息,帮助我们更好地理解物种进化【18】。完整的质体基因组在阐明单子叶植物的关系方面取得了巨大进展【19】,并解释了被子植物几个主要谱系之间的关系【20】。同时,植物质体基因组在物种形成过程中基因和基因组的演化,可以帮助我们理解物种如何适应不同的生态环境【14】。

在物种的系统发育和进化研究中,化石在确定物种分化时间上起着至关重要的作用【21】。例如,保存良好的莱尼硅化石有助于揭示早期陆地植物的生命周期【22】,而使用化石校正和分子钟方法可以很好地支持被子植物的白垩纪前起源【23】。基于化石证据的前期研究极大地促进了我们对整个胡桃科的理解【2, 24】,但对于青冈亚科,由于采样不足,通常仅展示了E. roxburghiana的分化时间。因此,青冈亚科物种的分化时间仍未解决。黄杞属内部的分化时间是什么?基于不同化石校正点的结果是否与前人的研究一致?有必要增加黄杞属物种的采样,以探讨胡桃科的系统发育关系、分化和起源。

在本研究中,共对来自8种黄杞属植物(E. anminiana、E. fenzelii、E. hainanensis、E. roxburghiana、E. serrata、E. spicata、E. spicata var. rigida和E. villosa)的14个个体及一个外群物种四川崖摩(Rhoiptelea chiliantha)进行了新的测序(表1),并从GenBank下载了来自胡桃科36个物种和6个外群物种的42个质体基因组序列。利用完整的质体基因组来探讨黄杞属及(或)其他属、亚科,甚至整个胡桃科物种间的进化和深层系统发育关系。我们的具体目标是:(1)比较质体基因组并识别黄杞属的变异;(2)识别胡桃科质体基因组的结构变异;(3)加深对胡桃科质体基因组中密码子使用偏好和基因进化的理解;(4)利用质体基因组数据推断和测试胡桃科各属及亚科的系统发育关系和分化时间。

SpeciesDNA codeVoucher noCollectorPlastomeLocality
Engelhardia anminianaMHH2018001-02Hong-Hu MengOR208248Sulawesi province, Indonesia
Engelhardia fenzeliiJNSX01ZYH19072801Yong-Hua ZhangOP480035Jingning, Lishui, Zhejiang, China
TTD01ZYH17102801Yong-Hua ZhangOP480037Tiantangding, Guangzhou, Guangdong, China
Engelhardia hainanensis02MHH20170514001AHong-Hu MengOR208247Bawangling, Changjiang, Hainan, China
HN01ZYH18072101Yong-Hua ZhangOP480038Jianfengling, Ledong, Hainan, China
Engelhardia roxburghianaBPZ11ZYH17120911Yong-Hua ZhangOP480042Baipenzhu, Huizhou, Guangdong, China
JFL02ZYH18072103Yong-Hua ZhangOP480031Jianfengling, Ledong, Hainan, China
TPS06ZYH17121606Yong-Hua ZhangOP480033Huaping, Guilin, Guangxi, China
XSBN01ZYH19011503Yong-Hua ZhangOP480034Xishuangbanna Tropical Botanical Garden, Yunnan, China
Engelhardia serrataMHH201800103-10Hong-Hu MengOR208250Sulawesi province, Indonesia
Engelhardia spicataMHH2018092101-01Hong-Hu MengOR208253Xishuangbanna Tropical Botanical Garden, Yunnan, China
Engelhardia spicata var. rigidaMHH20180922015-16Hong-Hu MengOR208251Sumatra Island, Indonesia
Engelhardia villosaMHH2018032813-20Hong-Hu MengOR208252Niukong, Lvchun, Yunnan, China
Rhoiptelea chilianthaMWS2LP174627Pan LiOP480039Gulinqing, Maguan, Yunnan, China

结果

黄杞属质体基因组的特征

黄杞属质体基因组的长度略有差异,范围为161,069 bp到162,336 bp,呈现出四分结构,包含一个大单拷贝区(LSC)(89,927–91,637 bp)、一对反向重复区(IR)(25,813–26,016 bp)和一个小单拷贝区(SSC)(18,790–19,203 bp)(图1,表2)。在新测序的质体基因组中,共鉴定出134个基因,包括88个编码蛋白的基因(CDS)、两个假基因(Ψycf1和Ψrps19)、37个转移RNA(tRNA)基因和8个核糖体RNA(rRNA)基因(表2)。所有黄杞属物种的IRb区中的ycf1(Ψycf1)和IRa区中的rps19(Ψrps19)被鉴定为假基因(表S2)。在这些基因中,有18个含有内含子的基因,其中3个基因(rps12、clpP和ycf3)含有两个内含子,其余基因(trnA-UGC、trnG-UCC、trnI-GAU、trnK-UUU、trnL-UAA、trnV-UAC、rpl2、rpl16、rps16、rpoC1、atpF、ndhA、ndhB、petB和petD)含有一个内含子(表S2)。这些新生成的黄杞属质体基因组已存储在GenBank中(表1中显示了登录号)。

黄杞属质体基因组的基因图谱 物种名称显示在左上角,基因组图谱包含5个轨道。从内到外,第一轨道(A)显示正向和反向重复序列,由红色和绿色弧线连接。第二轨道(B)显示串联重复序列,以蓝色线段表示。第三轨道(C)显示微卫星序列,以绿色和黄色线段表示。第四轨道(D)显示大单拷贝区(LSC)、小单拷贝区(SSC)和反向重复区(IRa和IRb)。第五轨道(E)显示基因组的GC含量。基因分布在最外圈(F),基因名称后括号内显示了可选的密码子使用偏好。圆圈内外显示的基因分别以顺时针和逆时针方向转录,不同功能组的基因以不同颜色显示。

ciesTotal (bp)LSC (bp)SSC (bp)IR (bp)CDS (bp)Total GC content (%)Total genesCDSPseudotRNA genesrRNA genes
E. anminiana162,08891,30219,05425,86678,96935.9134882378
E. fenzelii_JNSX01161,06989,92719,11226,01578,86736.0134882378
E. fenzelii_TTD01161,10589,96419,11126,01578,86736.0134882378
E. hainanensis_02161,57491,15718,79125,81379,13735.8134882378
E. hainanensis_HN01161,57291,15618,79025,81379,13735.8134882378
E. roxburghiana_BPZ11161,71390,47819,20326,01678,90635.9134882378
E. roxburghiana_JFL02161,51190,37319,10626,01678,91535.9134882378
E. roxburghiana_TPS06161,71390,47819,20326,01678,90635.9134882378
E. roxburghiana_XSBN01161,66790,44819,18726,01678,90635.9134882378
E. serrata162,16191,31319,09225,87878,85235.9134882378
E. spicata161,55190,93718,89025,86279,11335.8134882378
E. spicata var. rigida161,52090,95118,87125,84979,12235.9134882378
E. villosa162,33691,63719,04325,82879,14335.8134882378
R. chiliantha_MWS2161,70290,44719,08126,08779,18236.1133881378

黄杞属质体基因组的整体GC含量为35.8%–36.0%(表S3),编码序列(CDS)区域的GC含量为37.2%–37.3%。我们发现LSC区的GC含量(33.2%–33.6%)和SSC区的GC含量(29.3%–29.6%)低于IR区的GC含量(42.6%–42.7%)(表S3)。

黄杞属质体基因组的GC含量

黄杞属质体基因组的整体GC含量为35.8%–36.0%(表S3),编码序列(CDS)区域的GC含量为37.2%–37.3%。我们发现,LSC区的GC含量为33.2%–33.6%,SSC区的GC含量为29.3%–29.6%,均低于IR区的GC含量(42.6%–42.7%)(表S3)。

黄杞属质体基因组的比较分析

通过使用mVISTA和Mauve比对对所有黄杞属物种的多个质体基因组进行比较,显示出较高的共线性。研究发现,黄杞属基因的组成和序列高度一致,未检测到DNA片段重排的倒位或易位现象(图S2)。相对较低同源性的区域包括rps16_trnQ-UUG、trnS-GCU_trnG-UCC、trnT-GGU_psbD、trnF-GAA_ndhJ、ndhK_ndhC、accD_psaI、petA_psbJ和ndhF_trnL-UAG(图S1)。黄杞属物种的大多数DNA序列变异发生在非编码区域,如基因间隔区和基因内含子区域,并且LSC和SSC区的序列分化明显高于IR区(图S1-2)。

通过分析黄杞属质体基因组中LSC、SSC、IRa和IRb序列的边界差异,发现内边界差异较小,未发生大的间隔区扩展和缩短现象,这与该属质体基因组的保守特征一致(图2)。所有物种的ycf1基因跨越了SSC/IRa区域,SSC区的ycf1长度为4623 bp–4729 bp,IRa区的长度为1004 bp–1104 bp。在IRb/SSC边界附近的相应位置形成了假基因(Ψycf1),在所有黄杞属物种中都观察到短的Ψycf1片段延伸至SSC区。Ψycf1与ndhF的重叠仅在E. anminiana、E. spicata和E. villosa中被检测到。rps19基因跨越了所有黄杞属物种的LSC/IRb区域,并在IRa/LSC边界形成了假基因(Ψrps19)(图2)。

比较13个黄杞属质体基因组中SSC、LSC和IR区域的边界位置 靠近或跨越边界的基因以黄色框显示。

黄杞属质体基因组中的重复序列

质体基因组的重复序列包括散布重复和串联重复。散布重复进一步分为四种类型:正向重复、反向重复、互补重复和回文重复。使用REPuter软件在13个黄杞属质体基因组中共识别出2,368个重复序列,其中包括24–47个正向重复、7–16个反向重复、21–31个回文重复、1–4个互补重复和89–163个串联重复(表S4,图3)。大多数串联重复存在于非编码区域,如基因间隔区(IGS)和内含子区(表S4,图S3)。总体上,串联重复在黄杞属中更为常见,占所有重复类型的约60.52%。相反,互补重复相对较少,占1.01%(表S4,图S4)。

黄杞属13个质体基因组中重复序列的分析 A. 散布重复序列的统计。 B. 简单序列重复(SSR)的统计。 C. 不同类型SSR的统计。 D. 不同类型SSR的总体比例统计。

在本研究中,使用MISA在线软件对SSR进行了统计分析,13个黄杞属质体基因组中共检测到1530个SSR位点。各个个体之间的SSR总数差异较小,范围从111(E. roxburghiana_JFL02)到127(E. villosa)。大多数质体SSR(ptSSR)为单核苷酸重复,占所有SSR的71.24%,其次是双核苷酸重复(13.07%)、三核苷酸重复(5.69%)、四核苷酸重复(4.97%)和五核苷酸重复(4.64%),而六核苷酸重复最少,仅占0.39%(表S4,图3)。A/T类型的单核苷酸重复最多,占98.44%,仅检测到17个G/C单核苷酸重复,这也导致质体基因组中A和T的富集。大多数SSR位于LSC区(72.88%),SSC区(19.67%)和IR区(7.45%)的SSR分布较少。此外,大多数SSR(87.84%)分布在基因间隔区(IGS)和内含子区域,只有12.16%位于编码序列中(表S4,图4)。

13个黄杞属质体基因组中简单序列重复(SSR)的分布 A. LSC、SSC、IR区域及所有编码序列(CDS)中的SSR数量统计。 B. 不同区域检测到的SSR总体比例统计。 C. 在编码序列(CDS)和非编码序列中检测到的SSR总体比例统计。

山核桃属、黄杞属和胡桃属质体基因组的基因组变异比较分析

通过对山核桃属、黄杞属和胡桃属质体基因组核苷酸多态性的比较分析,发现黄杞属的变异性高于山核桃属和胡桃属(图5)。在黄杞属中,核苷酸多态性指数(Pi)大于0.010的高变区有18个,分别是trnH-trnK、trnK-rps16、rps16-psbK、trnG-atpI、rpoB-trnT、trnT-psbD、psbC-trnM、rps4-trnT、trnL-ndhJ、ndhC-trnV、petA-psbJ、psbE-rpl33、rps11-rps8、rps3-rpl2、trnN-ndhF、ndhF-ccsA、ndhA和ndhH-ycf1,而在山核桃属和胡桃属中,分别只有7个和8个高变区。在这三属中,trnK-rps16、ndhF-rpl32和ycf1是共同的高变热点区域(图5)。

胡桃属、黄杞属和山核桃属质体基因组的核苷酸多样性和变异分布 曲线描绘了基因组比对中的π值波动(虚线标记的π值为0.010),曲线下方的方框分别表示单核苷酸变异(SNVs)(上方)、缺失和插入(下方)的分布。灰色阴影层表示IR区的大致范围。

以四川崖摩(R. chiliantha)为参考,我们对胡桃亚科和青冈亚科的质体基因组中的基因组变异(包括单核苷酸变异、插入和缺失)进行了表征,发现不同物种之间差异很大(表S5a)。在所有收集的物种中,共识别出115,213个SNVs、9502个插入(1–274 bp)和10,428个缺失(1–2,468 bp)(表S5d)。每千碱基(kb)的SNVs、缺失和插入数量在质体基因组水平上有所不同,胡桃科的平均值分别为15.03、1.36和1.24,山核桃属为11.84、1.04和0.93,黄杞属为17.48、1.48和1.64,胡桃属为17.20、1.70和1.28。在这三种基因组变异中,IR区的每千碱基的SNVs、缺失和插入数量最少,胡桃科的平均值分别为1.71、0.15和0.09,山核桃属为1.81、0.13和0.11,黄杞属为1.66、0.20和0.10,胡桃属为1.70、0.14和0.05。LSC区的每千碱基的SNVs、缺失和插入数量最多,胡桃科的平均值分别为9.04、0.97和0.93,山核桃属为6.17、0.70和0.63,黄杞属为10.62、1.01和1.23,胡桃属为11.30、1.30和1.04(表S5b)。这些结果共同表明IR区比单拷贝区更为保守。

所有基因组结构变异都被映射到基于质体基因组构建的系统发育树上,显示出山核桃属(插入事件:132–199次;缺失事件:135–236次)、黄杞属(186–364次;155–311次)和胡桃属(149–230次;192–331次)发生的插入和缺失事件的时间非常不同。因此,山核桃属的结构变异少于黄杞属和胡桃属。黄杞属物种之间的结构变异范围相对较大,尤其是E. serrata和E. villosa,E. serrata中有329个插入和306个缺失,E. villosa中有364个插入和311个缺失(图S5)。

这些识别出的插入缺失(InDels)的相应基因组位置被映射并定位到胡桃亚科和青冈亚科的质体基因组中。发现胡桃科90%的InDels出现在内含子区(35%)和基因间隔区(55%),山核桃属中92%的InDels出现在内含子区(43%)和基因间隔区(49%),黄杞属中88%的InDels出现在内含子区(33%)和基因间隔区(55%),而胡桃属中91%的InDels出现在内含子区(31%)和基因间隔区(60%)(表S5c;图6)。

山核桃属、黄杞属和胡桃属质体基因组中基因间隔、外显子、内含子和RNA基因上SNVs、缺失和插入的平均数量

胡桃科质体基因组的密码子使用分析

通过比较胡桃科质体基因组中长度超过300 bp的50个基因的编码序列,发现有两个密码子的RSCU(相对同义密码子使用度)值为1,分别是编码甲硫氨酸(Met)的AUG和编码色氨酸(Trp)的UGG(表S6a)。有29个密码子的RSCU值大于1,其中16个以U结尾,12个以A结尾,这在青冈亚科、胡桃亚科和崖摩亚科中是一致的(表S6a)。以U或A结尾的密码子是这三个亚科质体基因组中的偏好密码子(图S6)。大多数胡桃科质体基因组的密码子偏好没有显著差异(图S6)。然而,编码序列第三位碱基的A/T含量显著高于G/C含量,T3s(0.4748–0.4782) > A3s(0.4399–0.4438) > G3s(0.1695–0.1722) > C3s(0.1613–0.1649)(表S6b)。我们发现Carya ovata和Carya palmeri的ENC、GC3s和GC值最高,而Platycarya strobilacea的值最低。这三个亚科的各属内部未检测到显著的密码子偏好差异(表S6b)。

进一步计算并绘制了三个亚科的编码基因的密码子使用模式参数(ENC、Fop、CBI和CAI)(表S6c)。CAI值介于0.09和0.31之间,psbA、rbcL和psbD的CAI值最高,而rpl20、rpl18和rps8的CAI值最低。大多数CBI值范围在-0.23到0.23之间,psbA、psbD和rbcL的CBI值最高,ndhF、ndhG和rps14的最低。大多数Fop值在0.26–0.55之间,psbA、psbD和rbcL的Fop值最高,而ndhG、ndhF和petD的最低。大多数ENC值集中在35.71到60.6之间,ycf3、ycf2和rpl2的ENC值最高,rps18、petD和rps14的ENC值最低(表S6c)。三个亚科质体基因组中的高表达基因为ycf2、rpoC1和rpoC2,低表达基因为rps18、petD和rps14(表S6d)。结合表S4a中RSCU值大于1的29个高频密码子,最终确定了10个共同的最优密码子,分别是CUU、GUU、UCU、UCA、CCU、CCA、GCU、AAU、CGA和GGA,全部以A或U结尾(表S6d)。

密码子偏好指数(CBI)与最优密码子使用频率(Fop)之间呈正相关,最高相关系数为0.97(表S6e)。CAI与CBI之间以及CAI与Fop之间的相关系数也较高,分别为0.72和0.76,显示出正相关。此外,T3s/C3s、T3s/A3s、T3s/G3s、T3s/GC3s、T3s/GC、C3s/A3s、C3s/G3s、A3s/G3s、A3s/CAI、A3s/CBI、A3s/Fop、A3s/ENC、A3s/GC3s、A3s/GC、G3s/CAI、G3s/CBI、G3s/Fop、CAI/GC等之间存在负相关。其中,A3s/CAI的负相关程度最高,相关系数为-0.57(图S7)。三个亚科的结果与整个胡桃科的结果相似,CBI与Fop的相关系数最高,其次是CAI与CBI以及CAI与Fop之间的相关系数(图S7)。ENC值与T3s、C3s、G3s和GC3s呈正相关,但与A3s呈负相关。结果表明,同义密码子的第三位碱基含量与基因表达水平密切相关,T3s、C3s和G3s与基因表达呈正相关,而A3s与基因表达呈负相关(表S6e,图S7)。

所有筛选的基因编码序列的ENC值范围为35.71到60.6。ENC频率使用公式(ENCexp-ENCobs)/ENCexp计算,范围为-0.25到0.28。有2051个ENC频率在-0.1到0.1之间,接近预期的ENC值(表S6f)。根据标准曲线公式ENC = 2 + GC3 + 29/[GC32 + (1 - GC3)2],我们将ENC作为纵坐标,GC3s作为横坐标绘制了散点图(图7)。发现大多数基因位于或接近标准曲线(图7A)。然而,我们也发现所有物种中6个基因(rpl16、rps18、cemA、psbA、rps14和ycf3)的观察到的ENC值显著偏离标准曲线(图7A,B)。在所有基因中,ycf3的ENC值最高,而rps18和rpl16的ENC值最低(图7B;表S6f)。

50种胡桃科物种质体基因组中编码蛋白基因的ENC和PR2图 A. ENC图显示观察到的ENC值与GC3s值的关系,表示这些质体基因组中编码蛋白基因的预期和实际ENC值。 B. 不同气候带中ENC差异的比较。 C. PR2图显示50种胡桃科质体基因组中编码蛋白基因的碱基组成特征。红色代表青冈亚科物种的基因;绿色代表胡桃亚科物种的基因;蓝色代表崖摩亚科物种的基因。

PR2图用于分析编码氨基酸的密码子第三位的四种碱基组成,以G3/(G3 + C3)和A3/(A3 + T3)分别作为横坐标和纵坐标。结果显示,在胡桃科的编码蛋白序列中,A/T和G/C(嘧啶与嘌呤)在密码子第三位上的使用稍有不同(图7C)。PR2图表明,在36个胡桃科质体基因组的编码序列(CDS)的密码子第三位上,A/T和G/C的使用存在轻微的不平衡,尤其是四个CDS(psbA、rpl20、rpl16和rps8)(图7C)。第三和第四象限中的基因数量多于第一和第二象限,第四象限中的基因数量多于其他三个象限,因此G和T的使用频率最高(图7C)。

胡桃科编码蛋白基因的选择压力分析

为了分析八种胡桃科物种的编码蛋白序列(CDS)之间的进化压力,计算了80个编码蛋白序列的Ka/Ks值。结果显示,78个基因的Ka/Ks值几乎都小于1,只有rpl22和psaI的Ka/Ks值大于1。此外,我们还发现rps16仅在胡桃科和青冈亚科中受到正选择。对于所有胡桃科样本,光合作用相关基因的Ka/Ks值显著低于自我复制相关基因和其他基因的Ka/Ks值(图8A,表S7b)。在功能分类基因中,除光合作用相关基因在青冈亚科和胡桃亚科之间存在差异外,其他Ka/Ks值未显示出显著差异(图8C,表S7c)。

胡桃科50个物种中质体基因同源基因的进化压力分析 A. 比较三亚科中光合作用相关基因、自我复制相关基因和其他蛋白质编码基因的Ka/Ks值。 B. 比较三亚科中光合作用相关基因、自我复制相关基因和其他蛋白质编码基因同源基因的Ka/Ks值。* 表示p < 0.05;* 表示p < 0.01;** 表示p < 0.001;NS 表示p > 0.05。 C. 热图显示胡桃亚科、青冈亚科和崖摩亚科中编码基因(CDS)的Ka/Ks值。

胡桃科的系统发育分析

本研究中,以北美红栎(Quercus rubra,壳斗科)作为外群,基于完整质体基因组(排除一个反向重复区)的最大似然(ML)和贝叶斯推断(BI)树的拓扑结构几乎相同(图S8)。系统发育基因组结果表明,胡桃科主要分为三个组,包括胡桃亚科、青冈亚科和崖摩亚科,且支持率极高(BS = 100%,PP = 1)。系统发育树进一步支持了7个主要分支,对应于7个单系属,分别是山核桃属、胡桃属、枫杨属、青榆属、羽枝属、黄杞属和崖摩属。

胡桃亚科中有两个主要分支,分支I是山核桃属,分支II为胡桃属、枫杨属、青榆属和羽枝属。在ML树中,分支I的内部支持率(BS = 63–100%)低于分支II(BS = 66–100%)。山核桃属的物种分为两个组:C. hunanensis、C. kweichowensis、C. sinensis、C. polianei、C. tonkinensis和C. cathayensis被归为一组,剩下的12种则归为另一组。胡桃属被分为三个组,即胡桃组(Sect. Juglans或Dioscaryon)、心叶胡桃组(Sect. Cardiocaryon)和核桃组(Sect. Rhysocaryon)。胡桃组包括J. regia和J. sigillata,心叶胡桃组包括J. mandshurica、J. ailanthifolia和J. hopeiensis,核桃组包括J. cinerea、J. nigra、J. hindsii、J. major和J. microcarpa。枫杨属被分为两个组:一组包括P. fraxinifolia、P. stenoptera和P. hupehensis,另一组包括P. macroptera var. insignis和P. tonkinensis。青榆属为单种属,青榆(Cyclocarya paliurus)根据系统发育关系与枫杨属关系较近。

青冈亚科的物种关系密切,进一步分为两个主要分支,与青冈组(Sect. Engelhardia,分支I)和光果青冈组(Sect. Psilocarpeae,分支II)一致,且支持率极高(BS = 100%,PP = 1)。分支I包括E. spicata、E. spicata var. rigida、E. hainanensis、E. serrata、E. anminiana和E. villosa,分支II包括姊妹物种E. roxburghiana和E. fenzelii。崖摩亚科仅包括单属单种,即R. chiliantha。

胡桃科的分化时间和历史多样化

通过使用多个化石校正点估算胡桃科的分化时间,结果显示,胡桃科的冠节点大约出现在97.69百万年前(Mya)(95%最高后验密度(HPD):95.49 Mya–100.58 Mya),在早白垩纪时期与杨梅科分化(图9)。三个亚科,即崖摩亚科、青冈亚科和胡桃亚科,分别在89.28 Mya(95% HPD:85.6–92.96 Mya,中白垩纪)和73.59 Mya(95% HPD:69.01–78.13 Mya,晚白垩纪)相继分化(图9)。

基于质体基因组80个编码蛋白基因的胡桃科时间校准系统发育树 使用松弛分子钟模型和4个化石校正点(红色星星)估算的平均分化时间。节点上的蓝色条表示平均分化时间周围的95%最高后验密度(HPD)区间。节点按年龄编号,图中显示了胡桃科的属和亚科。

大多数胡桃科属的分化时间介于46.20到73.59百万年前(Mya)之间。青冈亚科两个分支的分化时间大约在27.64到46.11百万年前之间,主要发生在早始新世至中渐新世期间。系统发育和分化时间的结果不支持黄杞属进化史中发生快速辐射。在胡桃亚科中,山核桃属的冠群年龄估计为64.98百万年前(95% HPD:60.49–69.70 Mya),羽枝属的年龄为60.51百万年前(95% HPD:56.32–64.91 Mya),发生在晚古新世,而青榆属(Cyclocarya paliurus)的年龄为54.10百万年前(95% HPD:50.84–57.41 Mya)。枫杨属和胡桃属的分化时间估计为46.29百万年前(95% HPD:43.43–49.63 Mya),发生在中始新世。胡桃亚科大多数属的分化时间介于46.29到64.98百万年前之间,发生在中古新世至早始新世的相对温暖干燥的气候条件下(图9)。

讨论
黄杞属质体基因组的比较分析

本研究新测序了来自8个黄杞属物种的13个个体的质体基因组,并对其进行了注释和比较。结果表明,所有黄杞属物种的质体基因组具有典型的四分结构,基因组大小相似,约为161 kb(161,069 bp–162,336 bp),质体基因组的GC含量为35.8%–36.0%,与先前获得的胡桃科质体基因组序列长度和组成相似【1, 25,26,27】。通过比较黄杞属质体基因组的GC含量,发现IR区的GC含量高于LSC和SSC区,较高的GC含量有助于基因组的稳定性,因此IR区的保守性可能与GC含量有关【28】。使用mVISTA和Mauve比对黄杞属物种的质体基因组,显示出非常好的共线性,未检测到DNA片段重排的倒位或易位现象,这与质体基因组的保守性一致【29, 30】。通过分析黄杞属质体基因组中LSC、SSC、IRa和IRb区的边界差异,发现黄杞属的质体基因组边界差异较小(图2),与山核桃属相似,具有相对保守的IR边界模式【26】。在黄杞属中,ycf1基因有两个拷贝,一个位于SSC/IRa边界处,为完整基因,另一个位于IRb/SSC边界处,为假基因Ψycf1,不再编码蛋白【31】。同样,由于边界效应,Ψrps19存在于IRa/LSC边界(图2)。

重复序列广泛存在于基因序列和基因间隔区中,不仅保护编码序列【32】,还维持基因组的稳定性。质体基因组中的SSR具有丰富的多态位点,广泛用于分子标记、品种鉴定等研究【33, 34】。本研究中,分析了黄杞属质体基因组中的散布重复和串联重复,发现串联重复更为常见(占60.52%)。在黄杞属中检测到24个互补重复,这一结果与其他胡桃科物种一致【35,36,37】。几乎所有SSR的重复单元都由A和T碱基组成,这与Yi等的研究一致【38】。这些质体基因组中的SSR可以为黄杞属的种群遗传学和进化研究提供候选分子标记,同时也有助于其分子育种和保护。

DNA条形码是一种利用标准短基因区域作为标记进行快速、准确和高效物种鉴定的新型技术【39】。Zhang等人选用了5个质体区段(psbA-trnH、trnL-trnF、rps16、trnS-trnG和rpl32-trnL)、一个核DNA区段(nrITS)和11个核简单重复序列(nSSR)用于黄杞属物种鉴定【9】。在本研究中,我们使用完整的质体基因组对黄杞属进行了核苷酸多态性分析,以寻找更多潜在的分子标记。结果显示,所有物种的IR区的遗传多态性低于LSC和SSC区,编码区序列比非编码区序列更为保守(图5),这一结果与大多数被子植物的研究一致【40】。然而,我们仍发现黄杞属中有18个高变区,包括trnK-rps16、ndhF-rpl32和ycf1,这些区域在山核桃属和胡桃属中也表现出高度变异(图5),可用于黄杞属甚至整个胡桃科的物种鉴定。

两亚科质体基因组的结构变异分析

以四川崖摩(R. chiliantha)为参考,我们对胡桃亚科和青冈亚科的质体基因组中的基因组变异(包括单核苷酸变异(SNVs)、插入和缺失(InDels))进行了表征。尽管不同物种之间存在差异(表S5a),总体上基因组较为保守。通过比较不同区域的基因组变异,发现IR区每千碱基的变异数量最少(表S5a),比单拷贝区更为保守,基因比基因间区更为保守,这与基因组的特性一致【40】。将这些突变定位到质体基因组中,发现大多数插入和缺失分布在内含子和基因间隔区。质体中基因组结构变异的分布不均表明这些变异可能具有负面影响,并可能通过纯化选择被轻易消除【41】。

结构变异不仅可能影响基因组结构的异质性,还可能影响胡桃亚科和青冈亚科质体基因组中编码蛋白基因的进化。通过对蛋白编码基因中InDels的长度分析发现,在黄杞属的3993个InDels中,只有1200个长度为3的倍数,而山核桃属和胡桃属分别为1428/5670和1248/4764。这一发现表明,移码插入缺失的负选择可能不会真正影响质体的蛋白质编码基因,这与其他被子植物的6个核基因组中观察到的结果相反【42】。通过将结构变异映射到质体基因组中编码蛋白的外显子和RNA基因,进一步证实了质体基因组结构变异的普遍性,表明插入缺失可能是胡桃亚科和青冈亚科质体基因进化的重要驱动因素。

胡桃科质体基因组中的密码子使用偏好与基因进化

胡桃科质体基因组的密码子使用模式在探究其进化过程中发挥着重要作用【43】。在本研究中,探讨了胡桃科质体基因组的密码子偏好现象。多种同义密码子编码相同氨基酸的使用频率并不相等,这种现象称为密码子使用偏好【44】。相对同义密码子使用(RSCU)可以直接反映密码子使用偏好【45】。因此,计算了所有选定质体基因组的RSCU值。我们发现,大多数密码子的第三位碱基以A或U结尾(表S6a),这一结果与山楂属【46】、豌豆属【47】和芒草属【48】的研究结果一致,表明植物质体基因组的第三位碱基可能具有相似的使用模式【49】。通过构建高、低表达基因集,定义RSCU值大于1且ΔRSCU大于0.08的密码子为最优密码子。最终确定胡桃科质体基因组的九个最优密码子,全部以A或U结尾(表S6d)。一般来说,G和C(或A和T)在第三个密码子位点的分布是成比例的,表明物种的密码子使用偏好受到突变压力的影响【50】;如果在第三个密码子位点分布不均,表明密码子使用偏好受自然选择压力的影响【51】。因此推测,胡桃科质体基因组中的密码子偏好不仅受到碱基突变的影响,还受到自然选择压力的影响。ENC和PR2图中,青冈亚科、胡桃亚科和崖摩亚科物种的基因以不同颜色显示(图7)。这三个亚科植物在密码子使用偏好的主要驱动因素上没有显著差异(图7;表S6)。

我们发现密码子偏好指数(CBI)与最优密码子使用频率(Fop)之间存在正相关关系,最高相关系数为0.97,表明胡桃科质体基因组中的密码子使用模式可能在进化过程中由最优密码子的使用频率决定【43】。在胡桃科及其两个亚科(胡桃亚科和青冈亚科)中,ENC值与T3s、C3s、G3s和GC3s呈正相关,而与A3s呈负相关。ENC值可用于确定基因的相对表达水平【52】,因此我们推断,胡桃科及其两个亚科的同义密码子第三位碱基含量与基因表达水平密切相关,T3s、C3s和G3s与基因表达呈正相关,而A3s与基因表达呈负相关(表S6e,图S5)。在崖摩亚科中,C3s、G3s和GC3s与基因表达呈正相关,而T3s和A3s则呈负相关(图S6)。

胡桃科质体基因组中有50个编码蛋白基因的长度超过300 bp。这些筛选出的基因编码序列的ENC值范围为35.71至60.60。根据ENC值的范围,从20(完全偏好)到61(无偏好)【53】,当ENC值小于35时,基因或基因组的密码子使用具有强烈的偏好【54】。基于这些两个特征,我们发现胡桃科质体中编码蛋白基因的密码子使用偏好较弱。在-0.1至0.1之间有2051个ENC频率比率(表S6f),这些比率接近预期的ENC值,表明大多数基因的预期ENC值与实际值之间的差异较小。结果显示,同义密码子的第三位碱基含量与基因表达密切相关。密码子第三位碱基的GC含量(GC3s)被认为最能直接反映密码子使用模式【55】,可能是导致密码子使用偏好的重要因素。以ENC为纵坐标,GC3s为横坐标绘制散点图,探索密码子使用的主要特征(图7)。当散点位于或接近标准曲线时,表示密码子偏好受突变压力影响,反之则表示密码子使用偏好受自然选择等因素影响【56】。发现大多数散点位于或接近曲线(图7),表明突变对密码子偏好的影响更大。进一步的ENC图分析显示,大多数基因的ENC值接近预期值(图7A),表明这些基因的密码子使用偏好与GC3相关,突变是主要影响因素。此外,一些基因(如rpl16、rps18和rps14)的ENC值远低于预期曲线(图7),这也证实了自然选择对这些基因密码子偏好的影响。

由于自然选择和碱基突变的影响,PR图分析可以显示基因组中编码基因在密码子第三位的使用偏好。如果突变发生在密码子的第三位,同义密码子中的AT和CG比例是相等的。相反,如果存在选择压力,一些“偏好”的密码子将被更频繁地使用【57】。胡桃科及三个亚科的PR图分析表明,编码序列第三位的A/T和G/C选择不同,G和T(嘌呤)碱基的使用频率更高(图7C),表明主要受选择压力的影响。基于ENC图分析和PR图分析,自然选择和突变共同影响胡桃科质体基因组的密码子使用模式,突变压力起主要作用,这与Oncidium Gower Ramsey的结果一致【58】。

同义与非同义核苷酸替换模式对基因进化研究具有重要价值【59】。由于纯化选择的作用,非同义核苷酸的替换率通常低于同义核苷酸,因此大多数情况下Ka/Ks比率小于1【60】。为了更清晰地了解胡桃科质体基因组的适应性进化,我们计算了编码蛋白基因的Ka/Ks比率【41】。结果显示,只有ycf1的Ka/Ks比值大于1,剩余79个基因的Ka/Ks比值均小于1,表明存在强烈的纯化选择压力(表S7a)。我们还注意到,rps16仅在胡桃科和青冈亚科中受到了正选择。作为植物质体细胞器中与自我复制相关的基因,rps16对植物的生存至关重要【61】。受到正选择的rps16基因可能在青冈亚科物种的适应过程中发挥关键作用。青冈亚科和胡桃亚科的光合作用相关基因存在差异(图8C,表S7b),这可能是由于温带胡桃亚科和热带青冈亚科在光合作用适应性上的差异【2】。将这些基因映射到质体基因组中显示,大多数位于SSC和LSC区域的基因经历了比其他质体基因组区域更大的选择压力,而IR区域则更为保守。此外,不同功能的基因以不同速率进化,质体中参与光合作用的基因的选择压力通常低于与自我复制相关的基因和其他功能基因,从而导致基因表达和功能上的差异【62】(图8)。

胡桃科的系统发育关系

植物分类学传统上基于形态特征,但形态往往受到环境和平行进化等因素的影响【63】,因此也需要分子证据。基于核基因和质体基因片段,前人对黄杞属的系统发育关系进行了相关研究【9, 10】,但这些质体基因片段无法提供足够的信息来区分密切相关的物种。在本研究中,基于50个胡桃科物种和来自杨梅科、桦木科和壳斗科的6个物种构建了最大似然(ML)和贝叶斯推断(BI)的系统发育树(图S8)。基于ML和BI两种算法构建的系统发育树拓扑结构几乎相同。

胡桃科分为三个组,包括胡桃亚科、青冈亚科和崖摩亚科【64】,并且支持率非常高(BS = 100%,PP = 1)(图S8)。首先,胡桃亚科的五个主要分支与五个属完全对应,分别是山核桃属、胡桃属、枫杨属、青榆属和羽枝属,且支持率都很高(BS = 100%,PP = 1)。根据果实形态,这五个属被分为两类,包括有翅和无翅类型,即枫杨属、青榆属和羽枝属属于有翅类型,而山核桃属和胡桃属属于无翅类型【64】。根据系统发育树结果,发现胡桃属与枫杨属的系统发育关系更近。尽管这两个属的果实形态完全不同,但山核桃属和胡桃属的果实形态相似,系统发育关系却较远【21, 65, 66】。其次,青冈亚科的物种关系密切,分为两个主要分支,与青冈组(Clade I)和光果青冈组(Clade II)一致【67】,且支持率极高(BS = 100%,PP = 1)。分支I包括E. spicata、E. spicata var. rigida、E. hainanensis、E. serrata、E. anminiana和E. villosa,分支II包括E. roxburghiana和E. fenzelii,它们是姊妹物种。第三,崖摩亚科的唯一物种R. chiliantha位于胡桃科系统发育树的基部,也是中国特有的濒危物种【3, 9, 68, 69】。

探索胡桃科的起源与进化关系

在之前的研究中,基于化石数据的胡桃科冠群年龄约为白垩纪时期的84百万年前(Mya)【70, 71】。我们的结果显示,使用来自化石植物Budvaricarpus serialis(约85 Mya)的较早化石时间节点估算,胡桃科的分化时间约为97.69 Mya(95% HPD:95.49–100.58 Mya)。三个亚科,即崖摩亚科、青冈亚科和胡桃亚科,分别在89.28 Mya(95% HPD:85.61–92.96 Mya)和73.59 Mya(95% HPD:69.01–78.13 Mya)相继分化(图9)。

胡桃亚科大约在69.01 Mya到78.13 Mya之间分化,时间跨度从白垩纪到古近纪。北方热带假说【74, 75】为胡桃亚科的起源与多样性提供了合理的解释,即在温暖的古新世和始新世时期,胡桃亚科物种形成并迅速多样化,通过北大西洋陆桥和白令陆桥从北美传播到欧洲和亚洲【76】。然而,古新世-始新世极端热期后的全球降温导致大多数物种的灭绝【77, 78, 79】。青榆属和羽枝属是东亚特有的,而枫杨属主要分布在高加索和南俄的东亚地区。山核桃属和胡桃属在欧亚大陆的分布范围较广,可能是由于它们坚果状果实的形态,利于动物传播【3】。根据我们的结果,山核桃属和胡桃属的分化时间约为64.98 Mya,胡桃属和枫杨属的分化时间约为46.29 Mya,枫杨属和青榆属的分化时间约为54.10 Mya。因此,我们推测,胡桃亚科内部的分化事件发生较早,并经历了漫长的进化过程【21, 66】。

青冈亚科两个分支的分化时间约为27.64 Mya至46.11 Mya,主要发生在早始新世至中渐新世时期。黄杞属果实最早的化石记录存在于南美和北美,最古老的Alatonucula ignis化石在阿根廷早始新世地层中被发现【65】。同时,在美国阿拉斯加的中新世地层中也发现了化石(Palaeocarya olsoni)【70】。这意味着这些类群在始新世期间广泛存在于北半球和南半球的部分地区。也许是由于古近纪高温,黄杞属物种广泛分布在高纬度地区。基于在中国海南岛晚始新世地层中发现的最早的Palaeocarya果实化石(Palaeocarya sp.)【80】,这表明黄杞属植物在晚始新世开始占据热带亚洲,物种多样性在渐新世-中新世时期出现。

总之,我们的研究利用质体基因组中的80个编码序列(CDS)准确估算了胡桃科物种的分化时间,并发现胡桃科物种具有复杂的进化历史和物种多样性,这可能在进化过程中受到地理变化、气候变化和动物共同进化的影响。

结论

本研究分析了8种黄杞属物种的新测序质体基因组的特征,明确了质体基因组的基本结构是典型的四分结构。发现了三个突变热点区域,可作为推断系统发育分析和物种鉴定的潜在分子标记。插入缺失(InDels)可能是驱动胡桃亚科和青冈亚科质体基因组进化的重要因素。自然选择和突变共同影响了胡桃科及其三个亚科的密码子使用模式,突变压力起主要作用。系统发育结果完全支持黄杞属为包含两个组的单系群,并支持胡桃科分为三个亚科的分类。分化时间分析表明,黄杞属起源于晚白垩纪,并在晚始新世实现多样化,而胡桃科起源于早白垩纪,并在中白垩纪分化。总体而言,本研究表明质体基因组序列提供了可变信息,有助于解决系统发育关系并帮助理解物种如何适应多样的生态栖息地。

材料与方法
植物材料和DNA提取

本研究中,采集了目前公认的8种黄杞属植物(E. anminiana、E. fenzelii、E. hainanensis、E. roxburghiana、E. serrata、E. spicata、E. spicata var. rigida和E. villosa)和一个外群物种四川崖摩(Rhoiptelea chiliantha)的13个个体,采集地为亚洲的热带和亚热带地区。材料由张永华、孟宏虎和李盼鉴定。每个样本的新鲜叶片用硅胶干燥后进行DNA提取。使用植物DNAzol试剂(杭州力丰生物科技有限公司,中国杭州)从所有植物材料中提取高质量的基因组DNA。物种、标本号、采集者和GenBank登录号的详细信息列于表1。

DNA重测序、质体基因组组装和基因注释

每个样本的高质量基因组DNA用于全基因组测序(WGS),在BGISEQ-500平台(深圳华大基因,深圳)上获得100 bp成对末端的原始读数,按制造商的程序操作。通过去除Phred评分低于30的读数控制原始读数的质量,并保留高质量的序列进行基因组组装,使用GetOrganelle软件【81】。用于组装的命令行如下:get_organelle_reads.py -1 forward.fq -2 reverse.fq -o plastome_output -R 15 -k 21,45,65,85,105 -F plant_cp。所有目标质体基因组序列被串联并使用Geneious Prime 2021软件(Geneious | Bioinformatics Software for Sequence Data Analysis)手动编辑,参考基因组为Carya sinensis(MN892516)和Rhoiptelea chiliantha(MT701585)。同时,使用CPGAVAS2网络服务器(http://www.herbalgenomics.org/cpgavas)预测质体基因组中所有编码蛋白和非编码基因的类型和结构。通过比较Geneious Prime 2021和CPGAVAS2的结果,最终确定质体基因组的注释。最后,使用CPGView【82】可视化质体基因组图谱。13个新生成的完整质体基因组序列已存储于GenBank(登录号见表1)。从NCBI GenBank库中下载了其他43个物种的质体基因组,并使用上述方法重新注释,GenBank登录号列于表S1。

质体基因组结构特征的比较分析

我们使用这些新测序的黄杞属个体研究黄杞属的基因组变异。比较基因组分析使用了两种方法:(1)质体基因组序列同源性的比较使用了MAVUE和mVISTA【83】。使用Geneious Prime 2021软件中的Mauve比对插件检测13个质体基因组的序列重排,并使用在线软件mVISTA的LAGAN模型对13个序列进行比对。(2)展示了IR区扩展和收缩的比较。使用在线网站IRScope(https://irscope.shinyapps.io/irapp/)可视化IR边界区域。

重复序列检测

生物体基因组,尤其是高等生物体基因组中,包含大量的重复序列,根据其在基因组中的分布模式,可分为散布重复序列(DRS)和串联重复序列【84】。首先,使用REPuter软件【85】预测了8种黄杞属物种质体基因组中的散布重复序列。正向、反向、回文和互补重复序列的预测参数为:重复单元长度≥30 bp,序列一致性≥90%(汉明距离=3)。然后,使用Tandem Repeats Finder(TRF)网络服务器(Tandem Repeats Finder)预测质体基因组中的串联重复序列。最后,使用MISA软件识别简单重复序列(SSR),设置的单核苷酸、双核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的最小重复阈值分别为10、5、4、3、3、3。

核苷酸多态性和突变位点分析

我们基于Carya、Engelhardia和Juglans的Pi值分析了核苷酸多态性。使用Geneious Prime 2021中的mafft比对功能默认设置对质体基因组进行了比对,并使用DnaSP v6.0【86】计算质体中编码蛋白基因、非编码基因和基因间隔区的Pi值,显示属级别的核苷酸多样性。为了消除同一物种不同个体的干扰,仅选择E. hainanensis_HN01、E. fenzelii_TTD01和E. roxburghiana_BPZ11代表相应物种。参数设置为:窗口长度=600 bp,步长=200 bp。之后,在Geneious Prime 2021软件中定位并统计相应位点,并将Pi值大于0.01的序列片段用作候选高变异区。

为了对Carya、Engelhardia和Juglans质体基因组的基因组变异进行全面比较,我们计算了它们在基因间隔区、外显子、内含子和RNA基因中单核苷酸变异(SNVs)和插入/缺失(InDels)位点的总数、长度和百分比。对于黄杞属物种,我们仅保留同一物种的一个个体进行核苷酸多态性分析。为了绘制SNVs和InDels数据的密度条形图,我们使用了TBtools中的Genome Varscan插件,检测参数设置为:线程数(CPU)为2,基因组序列差异标准(Diff)为千分之一,VarRange为0到1,000,000。将Carya、Engelhardia和Juglans与R. chiliantha对齐,后者被选为参考序列,随后输出变异位点信息。

密码子使用偏好

不同物种使用不同频率的密码子,会存在一定的偏好【87, 88】。研究不同科或属之间的密码子使用模式差异有助于我们有效理解物种的遗传进化模式。此外,探索植物质体基因组的密码子使用模式,有助于研究植物在不同进化模式下的适应机制【45】。除了对胡桃科整体进行分析,我们还分析了青冈亚科、胡桃亚科和崖摩亚科。选择序列长度超过300 bp且起始密码子为ATG的蛋白编码基因进行密码子偏好分析。使用CodonW软件(Correspondence Analysis of Codon Usage)计算T3s、C3s、A3s、G3s、CAI、CBI、Fop、ENC和GC值。并根据计算的相关值绘制图表:(I) 以ENC为纵轴、GC3s为横轴绘制图表,以评估碱基组成对密码子使用偏好的影响,观察到的ENC值与预期ENC值比较,公式为:ENC = 2 + GC3s + 29/[GC3s² + (1 - GC3s)²];(II) 以[A3/(A3 + T3)]为纵轴、[G3/(G3 + C3)]为横轴绘制坐标图,评估基因突变和自然选择对密码子使用偏好的影响。将所有筛选的基因按ENC值进行排序,选取上、下5%的基因样本,定义为低表达组和高表达组,计算每组的RSCU值。计算低表达组和高表达组之间的RSCU差异,定义RSCU > 1且△RSCU > 0.08的密码子为最优密码子。

胡桃科的系统发育关系

使用Geneious Prime 2021中的MAFFT v7.308【89】对质体基因组进行了比对。采用最大似然(ML)分析和贝叶斯推断(BI)对胡桃科进行系统发育重建。ML和BI分析的最佳核苷酸替换模型通过Modeltest v3.7【90】确定,完整质体数据的模型为GTR + I + G,BI分析使用CIPRES Science Gateway网络服务器中的RAxML-HPC v8.1.11和MrBayes v3.2.3在线工具【91, 92】进行。ML分析在默认设置下运行1000次bootstrap重复。BI树使用500万代,GTRGAMMA模型设置下的一个冷链和三个增量加热马尔科夫链蒙特卡洛(MCMC)同时运行,在两个平行运行中每隔1000代取样。前25%的树被丢弃作为烧入期,剩余的树用于生成共识树。

胡桃科质体基因组的进化分析

我们通过成对比对胡桃科50个选定物种和杨梅属的蛋白编码序列观察了同义(Ks)和非同义(Ka)替换及Ka/Ks比率。我们在每个比对中使用杨梅属作为参考进行成对比对。使用Geneious Prime 2021提取80个共同的蛋白编码基因,使用DnaSP v6.0计算Ka和Ks替换。此外,为了检测不同功能的质体基因的选择压力,CDS基因分为光合作用相关、自我复制相关和其他功能基因(表S1)。最后,我们绘制了基于不同功能分类或分类组的CDS基因的Ka/Ks值箱线图,并标记了组间差异的显著性。所有分析均在R 4.3.0版本(R: The R Project for Statistical Computing)中进行。

分化时间估计和化石校准

我们基于80个编码序列(CDS),结合四个化石校准(表S8)【24, 70, 71, 72, 73, 93, 94, 95, 96】,估算了胡桃科物种的分化时间。核苷酸替换模型与上述MrBayes参数相同。在设置为Yule过程特殊树模型之前,将分子钟设置为对数正态松弛分子钟。对于MCMC程序,链长为5 × 10⁸代,每10,000代取样一次。所有选项在BEAUTi v1.10.4中设置,导出为XML文件,并在BEAST v1.10.4【97】中运行。我们使用Tracer v1.6(BEAST Software - Bayesian Evolutionary Analysis Sampling Trees | BEAST Documentation)检查马尔科夫链的收敛性,并在移除前50%的烧入期后合并链。所有参数的有效样本量(ESS)均超过200。使用FigTree v1.4.3(FigTree)程序可视化各节点的平均节点年龄和95%最高后验密度(HPD)区间(上下限),并估算分支长度和分化时间。

数据和材料的可用性

支持本研究结果的序列数据已存储在中国国家基因库数据库,登录号为CNP0005522。物种的标本号和采集者如下:青冈(Engelhardia anminiana, MHH2018001-02, Hong-Hu Meng)、E. fenzelii_JNSX01(ZYH19072801, Yong-Hua Zhang)、E. fenzelii_TTD01(ZYH17102801, Yong-Hua Zhang)、E. hainanensis_02(MHH20170514001A, Hong-Hu Meng)、E. hainanensis_HN01(ZYH18072101, Yong-Hua Zhang)、E. roxburghiana_BPZ11(ZYH17120911, Yong-Hua Zhang)、E. roxburghiana_JFL02(ZYH18072103, Yong-Hua Zhang)、E. roxburghiana_TPS06(ZYH17121606, Yong-Hua Zhang)、E. roxburghiana_XSBN01(ZYH19011503, Yong-Hua Zhang)、E. serrata(MHH201800103-10, Hong-Hu Meng)、E. spicata(MHH2018092101-01, Hong-Hu Meng)、E. spicata var. rigida(MHH20180922015-16, Hong-Hu Meng)、E. villosa(MHH2018032813-20, Hong-Hu Meng)、四川崖摩(Rhoiptelea chiliantha_MWS2, LP174627, Pan Li)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值