点击蓝字 关注我们
超级泛基因组图谱为二倍体棉种的进化提供基因组学见解
综 述
● 原文链接DOI: https://doi.org/10.1002/imo2.15
●2024年6月27日,浙江大学张天真团队在iMetaOmics在线发表了题为“A super pan-genome map provides genomic insights into evolution of diploid cotton species”的文章。
● 本研究针对二倍体棉种的泛基因组构建及综合分析,为理解二倍体棉种扩张过程中的动态基因组变异提供了洞见,并能促进现代棉花育种的有效性。
● 第一作者:王学强、卢合均、赵炎、张志远
● 通讯作者:张天真(cotton@zju.edu.cn)
● 合作作者:李军、董泽宇、郝宇鹏、方磊、关雪莹、赵汀、胡艳
● 主要单位:浙江大学农业与生物技术学院、浙江大学海南研究院、海南省崖州湾种子实验室、山东农业大学农学院
亮 点
● 利用22种代表性的二倍体棉种,构建了一个高质量的超级泛基因组;
● 对现存的棉属物种之间的适应性进化进行了研究;
● 检测到了321个结构变异(SV)热点区域,这些区域包含90个与纤维起始和/或伸长相关的基因;
● 鉴定出在拟似棉(D6)和施沃恩蒂曼氏棉(D11)中缺少叶蜜腺现象的一个解释-GoNe基因启动子序列中的444bp缺失。
摘 要
全球已鉴定出的45种二倍体棉种展现出显著的形态多样性。现代棉花育种受限于对这些物种遗传变异理解的局限性,这表明需要进行泛基因组的全面分析。本研究利用22种代表性二倍体棉种构建了一个高质量的超级泛基因组,并对其适应性进化进行了探究。这22个物种的基因组平均每个组装包含923,706个可移动元件(TEs),TE比例范围从62.29%至88.92%不等。通过推断祖先基因组结构(IAGS)显示,雷蒙德氏棉(D5)基因组更接近祖先,而圆叶棉(K2)基因组累积了更多的断裂和融合事件。基于基因的超级泛基因组共鉴定了67,807个基因,包括22,384个核心基因、34,093个可变基因和11,330个特异性基因。结构变异(SVs)在染色体上分布不均,检测到321个热点区域,这些区域含有90个与纤维起始和/或伸长相关的基因。我们鉴定了17种二倍体棉种的叶蜜腺存在情况,发现拟似棉(D6)和施沃恩蒂曼氏棉(D11)缺乏叶蜜腺可能是由于GoNe基因启动子序列中的一个444bp缺失所致。这项针对二倍体棉种的泛基因组构建及综合分析,为理解二倍体棉种扩张过程中的动态基因组变异提供了洞见,并能促进现代棉花育种的有效性。
视频解读
Bilibili:https://www.bilibili.com/video/BV1N4421U7Yi/
Youtube:https://youtu.be/iWe0wf24wAQ
中文翻译、PPT、中/英文视频解读等扩展资料下载
请访问期刊官网:http://www.imeta.science/imetaomics/
全文解读
引 言
棉属(Gossypium)可以分为8个二倍体棉组(A、B、C、D、E、F、G和K基因组),包含45个二倍体物种。在现存的棉种中推断祖先基因组(IAG)是比较基因组学的一个重要目标,为此已提出了多种数学模型和方法。近期,一种名为“推断祖先基因组结构”(IAGS)的新框架被提出。过去几十年里,虽有多项努力对许多二倍体棉种进行了深度测序,但泛基因组分析主要集中在四倍体棉种上。通过结合新测序的草棉(G. hirsutum L.)及另外两个野生种的基因组与五个先前发表的四倍体棉种序列,构建了四倍体棉种的泛基因组。一个包含十个代表性棉种二倍体基因组的泛基因组,将染色质结构的变化与棉花纤维表型差异联系起来,并识别了控制纤维长度遗传基础的调控变异。该研究主要聚焦于一个D5基因组,对D基因组其他物种的关注较少。最近的一篇文章深入探讨了棉种快速适应性辐射的进化历史及其机制,特别关注了不完全谱系分选(ILS)和基因流的作用。因此,我们的研究旨在构建一个包含所有D基因组物种及其他棉属物种的二倍体棉种泛基因组,并进行深入的比较基因组分析,同时对不同棉种中的叶蜜腺发育基因(GoNe)进行比较基因组学分析。
结 果
本研究中,我们调查了22种二倍体棉种及其野生近缘种叉柱棉(Kirkii),这些物种的高质量基因组数据可在CottonGen平台(https://www.cottongen.org/)公开获取。我们推断了现存棉种的祖先基因组结构(IAGS),并构建了栽培与野生二倍体棉种的超级泛基因组。研究还考察了不同二倍体棉种中的结构变异(SVs),并检测到SVs的热点区域。我们调查了17种二倍体棉种中叶蜜腺的存在或缺失情况,并对不同物种中的叶蜜腺发育基因(GoNe)进行了比较基因组分析。
这22个二倍体棉种基因组代表了8个被认可的基因组群中的7个,以及包括其野生近缘种叉柱棉在内的19种代表性二倍体棉种,用于泛基因组分析。利用BUSCO评估法对每个基因组的组装完整性进行了评价(表S1)。为了分类和评估转座子(TEs)在棉种基因组中的分布,我们对TEs进行了注释。在所有物种中,圆叶棉(K2)中发现的TE数量最多,而在野生近缘种叉柱棉中则最少(图1A;S1;表S2)。从D基因组到G和K基因组,以及从B、E和F基因组到A基因组,TEs的总长度有显著增加,表明TEs可能对棉种的进化产生了重要影响。基因组中TE比例与总序列长度之间存在显著正相关,提示TE的增多可能促进了基因组的扩增(图1A;S1;表S2)。Gypsy和Copia类型的LTRs被识别为基因组扩增过程中重要的贡献者。
通过全基因组测序,我们进一步分析了22个二倍体棉种基因组之间的遗传关系、进化历程及分化时间。利用352个单拷贝编码基因构建了最大似然系统发育树,揭示了两个明显的分支,其中D基因组的二倍体棉种构成了一个分支。栽培二倍体棉种约在545万年前与野生二倍体棉种分化,而二倍体棉种与其野生近缘种叉柱棉的分化时间约为1,013万年前(图1B;S2)。在组装基因组间鉴定了共线性区块,发现在草棉(A1)与亚洲棉(A2)之间存在13个在不同对应基因组上无序排列的共线性区块,暗示这些区块在两个棉种进化中的重要性(图1C)。采用GMP模型推断了棉种祖先基因组,发现染色体裂解和倒位是物种形成的基本驱动力。大规模的染色体倒位可能是驱动物种形成和多样性的重要因素(图1D;S3)。未来的研究将探讨裂解的原因,以及它是受到选择压力还是环境剧变的影响。
随后,我们通过评估22个基因组及二倍体棉种的基因注释,构建了一个超级泛基因组。泛基因组包含67,807个基因,其中包括22,384个核心基因、34,093个可变基因和11,330个特异基因(图1E-G;表S3-S5)。核心基因的KEGG途径和GO富集分析显示了与棉花生长发育相关的条目(表S6)。特异基因在不同条目上的富集揭示了不同棉种特征的变异(图S4-S12;表S7-S13)。例如,草棉(A1)的特异基因与抗病性有关,而亚洲棉(A2)的特异基因则与皮棉产量相关(图S4-S5;表S8-S9)。雷蒙德氏棉(D5)的特异基因与生物量、纤维质量和抗逆/疾病有关(图S6-S7;表S10)。异常棉(B1)的特异基因与干旱耐受性相关(图S11;表S12),这些特点与各物种特有的性状相吻合。
为克服参考基因组偏差,我们使用三个参考基因组鉴定了22个二倍体棉种组装基因组中的结构变异(SVs)。结果显示,不同棉种间SVs的总数和类型存在差异(图1H;S13-S16;表S14-S17)。重复收缩最为常见,而删除最少。辣根棉(D2-1)拥有最多的SVs,而叉柱棉拥有最少。野生棉种D基因组的SVs数量是栽培棉种(A1和A2基因组)的1.5倍,当以K2为参考时,野生(B1、E1、F1和G2基因组)与栽培棉种(A1和A2基因组)之间在SVs上没有显著差异(图S13和S16;表S14)。在321个SV热点区域中发现了分布不均的SVs,这些区域包含90个与纤维起始和/或伸长相关的基因(图S16;表S18)。A2基因组在这些区域的SVs较少,这可能解释了其高皮棉产量和纤维质量。原因在于A2基因组中与纤维起始和/或伸长相关的基因受结构变异(SVs)的影响较小。
最后,棉花的叶蜜腺为植物提供了对抗食草动物的防御机制。我们对17个分类到七个二倍体棉组的棉种进行了表型调查,以确定叶蜜腺的存在情况。与之前的研究一致,未在拟似棉(D6)、施沃恩蒂曼氏棉(D11)及异源四倍体棉种毛棉((AD)3)中发现叶蜜腺(图1I-M;S17)。对GoNe表达的比较基因组分析显示,D6和D11中GoNe无表达,表明这两个野生二倍体棉种中GoNe在叶蜜腺发育方面功能缺失(图1N;S18;表S19)。GoNe启动子序列的分析显示,与具有叶蜜腺的其他二倍体棉种相比,D6和D11物种的GoNe启动子序列存在大片段缺失(444 bp)(图S19-S20)。
图1. 泛基因组分析探索二倍体棉种的基因组多样性和适应性进化
(A)不同棉种的TE长度和组装长度。不同颜色的基因组代表不同的二倍体棉种基因组;(B)利用352个单拷贝编码基因与系统发育外群物种Kirkii的系统发育树和 27 个基因组的分化时间。图中箭头代表不同基因组的分化时间;(C)基于系统发生树的两个基因组之间的共线性块。染色体上的不同颜色代表不同的棉种基因组。两个基因组之间的灰色链接代表共线性区块,而两个基因组之间的橙色链接代表无序共线性区块;(D)祖先基因组的构建以及同源区块的裂变和融合;(E)泛基因组和核心基因组以及另外一个二倍体棉种基因组中基因的变异;(F)泛基因组和单个基因组的组成。直方图显示了22个基因组中不同频率的基因数量;(G)二倍体棉种基因组中核心基因和可有可无基因的聚类;(H)不同二倍体棉种基因组中SV的分布。每层从内到外的彩色直方图分别代表从每个二倍体棉种基因组中检测到的 SVs;(I-N)五种不同棉种的叶片蜜腺和GoNe1/GoNe2表达水平调查,(I) D5;(J) TM-1 (AD)1;(K) D6;(L) D11;(M) (AD)3;(N) GoNe1/GoNe2在五种不同棉种中的表达。红框为各物种的叶片蜜腺。(AD)3、D6和 D11的叶片中肋没有蜜腺。比例尺代表2厘米。**表示通过单因子方差分析发现的有叶蜜腺(TM-1和D5)与无叶蜜腺((AD)3、D6 和D11)之间存在显著差异(p < 0.05)
讨 论
总之,我们构建了22种二倍体棉种的高质量超级泛基因组,并研究了它们的适应性进化。该泛基因组包含67,807个基因,包括核心基因、可变基因和特异性基因,并鉴定了与纤维起始和/或伸长相关的结构变异和热点区域。研究还探讨了拟似棉(D6)和施沃恩蒂曼氏棉(D11)缺乏叶蜜腺的现象,并确定了GoNe启动子序列中的缺失是其原因。本研究揭示了二倍体棉种的遗传多样性及其在扩展过程中的动态基因组变异,有助于现代棉花育种工作。
代码和数据可用性
来自CottonGen(https://www.cottongen.org/)获取了22种二倍体棉种及一个外类群物种G. kirkii(Kirkii)的组装基因组,具体信息(DOI和URL)列于表S1中。绘图代码已提交至Githup(https://github.com/xqwang1990/Cotton_Pangenome_Plot)。补充材料(方法、图、表、脚本、图形摘要、幻灯片、视频、中文版内容及更新资料)可在线通过DOI或访问iMeta科学网站http://www.imeta.science/imetaomics/获取。
引文格式:
Xueqiang Wang, Hejun Lu, Yan Zhao, Zhiyuan Zhang, Jun Li, Zeyu Dong, Yupeng Hao, et al. 2024. A super pan-genome map provides genomic insights into evolution of diploid cotton species. iMetaOmics 15: e15. https://doi.org/10.1002/imo2.15
作者简介
王学强(第一作者)
● 中国农业大学硕博连读,浙江大学/海南省崖州湾种子实验室博士后。
● 目前为崖州湾国家实验室博士后,研究方向为水稻多组学分析与基因挖掘,相关学术成果已发表于Journal of Advanced Research、iMetaOmics、Journal of Integrative Plant Biology和BMC Plant Biology等期刊。
卢合均(第一作者)
● 比利时列日大学博士,2020-2023年在浙江大学农学与生物技术学院从事博士后工作。
● 目前研究方向为群体遗传学功能基因挖掘及作物育种4.0技术的开发应用,相关成果已发表在Crop Journal、BMC Plant biology 等期刊。
赵炎(第一作者)
● 中国农业大学农学博士,山东农业大学农学院副教授。
● 研究方向为作物重要基因发掘,和小麦在环境适应性进化及抵御逆境胁迫中的多倍体优势及其育种利用;相关学术成果已发表于BMC Biology、Plos Genetics、Journal of Integrative Agriculture和BMC Plant Biology等期刊。
张志远(第一作者)
● 南京农业大学农学院博士,浙江大学农业与生物技术学院和德克萨斯州大学奥斯汀分校分子生物科学系博士后。
● 目前研究方向为作物重要性状的分子机制解析,相关学术成果已发表于The Plant Cell、Nature Genetics、Plant Biotechnology Journal等期刊。
张天真(通讯作者)
● 浙江大学求是特聘教授,博士生导师。
● 主要从事棉花育种目标性状的基因与基因组学研究,种质资源遗传基础与创新,及作物育种新方法和新品种选育等科学研究工作。在Nature Biotechnology,Nature Genetics, Nature Communication, Plant Cell, PNAS等国际知名刊物上发表SCI论文150多篇;已育成推广棉花新品种12个,研究成果获授权专利15项,国家奖2项,省部级一、二等奖8项。先后荣获 Cotton Biotechnology Award、国家杰出青年科学基金、973首席科学家、“新世纪百千万人才工程”国家级人选等荣誉。
iMetaOmics
更多资讯
● iMeta姊妹刊iMetaOmics(定位IF>10)欢迎投稿!(2024.2.27)
● iMeta姊妹刊iMetaOmics编委招募 (定位IF>10) (2024.3.2)
● iMeta姊妹刊iMetaOmics电子版和印刷版ISSN申请获批(2024.4.1)
● iMeta姊妹刊iMetaOmics投稿系统正式上线(2024.4.17)
● iMeta姊妹刊iMetaOmics主编正式官宣(2024.4.22)
● 出版社iMetaOmics主页正式上线!(2024.4.28)
● iMetaOmics | 浙江大学宗鑫组揭示两猪种宿主-肠道菌群互作差异
● iMetaOmics | 罗鹏/袁硕峰/苗凯/程全发表STAGER: 生成式人工智能可靠性的标准化测试和评估推荐
● iMetaOmics | 徐州医科大杨欢组揭秘沙门氏菌-宿主-微生物群在免疫与代谢中的相互作用
● iMetaOmics | 中科院动物所金坚石组综述16S rRNA基因扩增子测序技术的“前世今生”
更多推荐
(▼ 点击跳转)
iMeta | 引用7000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据
iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法
1卷1期
1卷2期
1卷3期
1卷4期
2卷1期
2卷2期
2卷3期
2卷4期
3卷1期
2卷2期封底
2卷4期封底
3卷2期
3卷3期
3卷3期封底
期刊简介
“iMeta” 是由威立、肠菌分会和本领域数百千华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表原创研究、方法和综述以促进宏基因组学、微生物组和生物信息学发展。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行!发行后相继被Google Scholar、ESCI、PubMed、DOAJ、Scopus等数据库收录!2024年6月获得首个影响因子23.7,位列全球SCI期刊前千分之五(107/21848),微生物学科2/161,仅低于Nature Reviews,同学科研究类期刊全球第一,中国大陆11/514!
“iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,定位IF>10的高水平综合期刊,欢迎投稿!
联系我们
iMeta主页:
http://www.imeta.science
姊妹刊iMetaOmics主页:
http://www.imeta.science/imetaomics/
出版社iMeta主页:
https://onlinelibrary.wiley.com/journal/2770596x
出版社iMetaOmics主页:
https://onlinelibrary.wiley.com/journal/29969514
iMeta投稿:
https://wiley.atyponrex.com/journal/IMT2
iMetaOmics投稿:
https://wiley.atyponrex.com/journal/IMO2
邮箱:
office@imeta.science