iMetaOmics | 浙大张天真组完成二倍体棉种泛基因组构建

点击蓝字 关注我们

超级泛基因组图谱为二倍体棉种的进化提供基因组学见解

4baacde8e1821c7498370977ecb505ab.png

综  述

● 原文链接DOI: https://doi.org/10.1002/imo2.15

●2024年6月27日,浙江大学张天真团队在iMetaOmics在线发表了题为“A super pan-genome map provides genomic insights into evolution of diploid cotton species”的文章。

● 本研究针对二倍体棉种的泛基因组构建及综合分析,为理解二倍体棉种扩张过程中的动态基因组变异提供了洞见,并能促进现代棉花育种的有效性。

●  第一作者:王学强、卢合均、赵炎、张志远

●  通讯作者:张天真(cotton@zju.edu.cn)

●  合作作者:李军、董泽宇、郝宇鹏、方磊、关雪莹、赵汀、胡艳

●  主要单位:浙江大学农业与生物技术学院、浙江大学海南研究院、海南省崖州湾种子实验室、山东农业大学农学院

 亮 点

57bc79313919dfef0b0a8afaf2ecff15.jpeg

●  利用22种代表性的二倍体棉种,构建了一个高质量的超级泛基因组;

●  对现存的棉属物种之间的适应性进化进行了研究;

●  检测到了321个结构变异(SV)热点区域,这些区域包含90个与纤维起始和/或伸长相关的基因;

●  鉴定出在拟似棉(D6)和施沃恩蒂曼氏棉(D11)中缺少叶蜜腺现象的一个解释-GoNe基因启动子序列中的444bp缺失。

摘  要

全球已鉴定出的45种二倍体棉种展现出显著的形态多样性。现代棉花育种受限于对这些物种遗传变异理解的局限性,这表明需要进行泛基因组的全面分析。本研究利用22种代表性二倍体棉种构建了一个高质量的超级泛基因组,并对其适应性进化进行了探究。这22个物种的基因组平均每个组装包含923,706个可移动元件(TEs),TE比例范围从62.29%至88.92%不等。通过推断祖先基因组结构(IAGS)显示,雷蒙德氏棉(D5)基因组更接近祖先,而圆叶棉(K2)基因组累积了更多的断裂和融合事件。基于基因的超级泛基因组共鉴定了67,807个基因,包括22,384个核心基因、34,093个可变基因和11,330个特异性基因。结构变异(SVs)在染色体上分布不均,检测到321个热点区域,这些区域含有90个与纤维起始和/或伸长相关的基因。我们鉴定了17种二倍体棉种的叶蜜腺存在情况,发现拟似棉(D6)和施沃恩蒂曼氏棉(D11)缺乏叶蜜腺可能是由于GoNe基因启动子序列中的一个444bp缺失所致。这项针对二倍体棉种的泛基因组构建及综合分析,为理解二倍体棉种扩张过程中的动态基因组变异提供了洞见,并能促进现代棉花育种的有效性。

视频解读

Bilibili:https://www.bilibili.com/video/BV1N4421U7Yi/

Youtube:https://youtu.be/iWe0wf24wAQ

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网:http://www.imeta.science/imetaomics/

全文解读

引  言

棉属(Gossypium)可以分为8个二倍体棉组(A、B、C、D、E、F、G和K基因组),包含45个二倍体物种。在现存的棉种中推断祖先基因组(IAG)是比较基因组学的一个重要目标,为此已提出了多种数学模型和方法。近期,一种名为“推断祖先基因组结构”(IAGS)的新框架被提出。过去几十年里,虽有多项努力对许多二倍体棉种进行了深度测序,但泛基因组分析主要集中在四倍体棉种上。通过结合新测序的草棉(G. hirsutum L.)及另外两个野生种的基因组与五个先前发表的四倍体棉种序列,构建了四倍体棉种的泛基因组。一个包含十个代表性棉种二倍体基因组的泛基因组,将染色质结构的变化与棉花纤维表型差异联系起来,并识别了控制纤维长度遗传基础的调控变异。该研究主要聚焦于一个D5基因组,对D基因组其他物种的关注较少。最近的一篇文章深入探讨了棉种快速适应性辐射的进化历史及其机制,特别关注了不完全谱系分选(ILS)和基因流的作用。因此,我们的研究旨在构建一个包含所有D基因组物种及其他棉属物种的二倍体棉种泛基因组,并进行深入的比较基因组分析,同时对不同棉种中的叶蜜腺发育基因(GoNe)进行比较基因组学分析。

结  果

本研究中,我们调查了22种二倍体棉种及其野生近缘种叉柱棉(Kirkii),这些物种的高质量基因组数据可在CottonGen平台(https://www.cottongen.org/)公开获取。我们推断了现存棉种的祖先基因组结构(IAGS),并构建了栽培与野生二倍体棉种的超级泛基因组。研究还考察了不同二倍体棉种中的结构变异(SVs),并检测到SVs的热点区域。我们调查了17种二倍体棉种中叶蜜腺的存在或缺失情况,并对不同物种中的叶蜜腺发育基因(GoNe)进行了比较基因组分析。

这22个二倍体棉种基因组代表了8个被认可的基因组群中的7个,以及包括其野生近缘种叉柱棉在内的19种代表性二倍体棉种,用于泛基因组分析。利用BUSCO评估法对每个基因组的组装完整性进行了评价(表S1)。为了分类和评估转座子(TEs)在棉种基因组中的分布,我们对TEs进行了注释。在所有物种中,圆叶棉(K2)中发现的TE数量最多,而在野生近缘种叉柱棉中则最少(图1A;S1;表S2)。从D基因组到G和K基因组,以及从B、E和F基因组到A基因组,TEs的总长度有显著增加,表明TEs可能对棉种的进化产生了重要影响。基因组中TE比例与总序列长度之间存在显著正相关,提示TE的增多可能促进了基因组的扩增(图1A;S1;表S2)。Gypsy和Copia类型的LTRs被识别为基因组扩增过程中重要的贡献者。

通过全基因组测序,我们进一步分析了22个二倍体棉种基因组之间的遗传关系、进化历程及分化时间。利用352个单拷贝编码基因构建了最大似然系统发育树,揭示了两个明显的分支,其中D基因组的二倍体棉种构成了一个分支。栽培二倍体棉种约在545万年前与野生二倍体棉种分化,而二倍体棉种与其野生近缘种叉柱棉的分化时间约为1,013万年前(图1B;S2)。在组装基因组间鉴定了共线性区块,发现在草棉(A1)与亚洲棉(A2)之间存在13个在不同对应基因组上无序排列的共线性区块,暗示这些区块在两个棉种进化中的重要性(图1C)。采用GMP模型推断了棉种祖先基因组,发现染色体裂解和倒位是物种形成的基本驱动力。大规模的染色体倒位可能是驱动物种形成和多样性的重要因素(图1D;S3)。未来的研究将探讨裂解的原因,以及它是受到选择压力还是环境剧变的影响。

随后,我们通过评估22个基因组及二倍体棉种的基因注释,构建了一个超级泛基因组。泛基因组包含67,807个基因,其中包括22,384个核心基因、34,093个可变基因和11,330个特异基因(图1E-G;表S3-S5)。核心基因的KEGG途径和GO富集分析显示了与棉花生长发育相关的条目(表S6)。特异基因在不同条目上的富集揭示了不同棉种特征的变异(图S4-S12;表S7-S13)。例如,草棉(A1)的特异基因与抗病性有关,而亚洲棉(A2)的特异基因则与皮棉产量相关(图S4-S5;表S8-S9)。雷蒙德氏棉(D5)的特异基因与生物量、纤维质量和抗逆/疾病有关(图S6-S7;表S10)。异常棉(B1)的特异基因与干旱耐受性相关(图S11;表S12),这些特点与各物种特有的性状相吻合。

为克服参考基因组偏差,我们使用三个参考基因组鉴定了22个二倍体棉种组装基因组中的结构变异(SVs)。结果显示,不同棉种间SVs的总数和类型存在差异(图1H;S13-S16;表S14-S17)。重复收缩最为常见,而删除最少。辣根棉(D2-1)拥有最多的SVs,而叉柱棉拥有最少。野生棉种D基因组的SVs数量是栽培棉种(A1和A2基因组)的1.5倍,当以K2为参考时,野生(B1、E1、F1和G2基因组)与栽培棉种(A1和A2基因组)之间在SVs上没有显著差异(图S13和S16;表S14)。在321个SV热点区域中发现了分布不均的SVs,这些区域包含90个与纤维起始和/或伸长相关的基因(图S16;表S18)。A2基因组在这些区域的SVs较少,这可能解释了其高皮棉产量和纤维质量。原因在于A2基因组中与纤维起始和/或伸长相关的基因受结构变异(SVs)的影响较小。

最后,棉花的叶蜜腺为植物提供了对抗食草动物的防御机制。我们对17个分类到七个二倍体棉组的棉种进行了表型调查,以确定叶蜜腺的存在情况。与之前的研究一致,未在拟似棉(D6)、施沃恩蒂曼氏棉(D11)及异源四倍体棉种毛棉((AD)3)中发现叶蜜腺(图1I-M;S17)。对GoNe表达的比较基因组分析显示,D6和D11GoNe无表达,表明这两个野生二倍体棉种中GoNe在叶蜜腺发育方面功能缺失(图1N;S18;表S19)。GoNe启动子序列的分析显示,与具有叶蜜腺的其他二倍体棉种相比,D6和D11物种的GoNe启动子序列存在大片段缺失(444 bp)(图S19-S20)。

ba9843ac7a046a8f0066f805a903e48a.png

图1. 泛基因组分析探索二倍体棉种的基因组多样性和适应性进化

(A)不同棉种的TE长度和组装长度。不同颜色的基因组代表不同的二倍体棉种基因组;(B)利用352个单拷贝编码基因与系统发育外群物种Kirkii的系统发育树和 27 个基因组的分化时间。图中箭头代表不同基因组的分化时间;(C)基于系统发生树的两个基因组之间的共线性块。染色体上的不同颜色代表不同的棉种基因组。两个基因组之间的灰色链接代表共线性区块,而两个基因组之间的橙色链接代表无序共线性区块;(D)祖先基因组的构建以及同源区块的裂变和融合;(E)泛基因组和核心基因组以及另外一个二倍体棉种基因组中基因的变异;(F)泛基因组和单个基因组的组成。直方图显示了22个基因组中不同频率的基因数量;(G)二倍体棉种基因组中核心基因和可有可无基因的聚类;(H)不同二倍体棉种基因组中SV的分布。每层从内到外的彩色直方图分别代表从每个二倍体棉种基因组中检测到的 SVs;(I-N)五种不同棉种的叶片蜜腺和GoNe1/GoNe2表达水平调查,(I) D5;(J) TM-1 (AD)1;(K) D6;(L) D11;(M) (AD)3;(N) GoNe1/GoNe2在五种不同棉种中的表达。红框为各物种的叶片蜜腺。(AD)3、D6和 D11的叶片中肋没有蜜腺。比例尺代表2厘米。**表示通过单因子方差分析发现的有叶蜜腺(TM-1和D5)与无叶蜜腺((AD)3、D6 和D11)之间存在显著差异(p < 0.05)

讨  论

总之,我们构建了22种二倍体棉种的高质量超级泛基因组,并研究了它们的适应性进化。该泛基因组包含67,807个基因,包括核心基因、可变基因和特异性基因,并鉴定了与纤维起始和/或伸长相关的结构变异和热点区域。研究还探讨了拟似棉(D6)和施沃恩蒂曼氏棉(D11)缺乏叶蜜腺的现象,并确定了GoNe启动子序列中的缺失是其原因。本研究揭示了二倍体棉种的遗传多样性及其在扩展过程中的动态基因组变异,有助于现代棉花育种工作。

代码和数据可用性

来自CottonGen(https://www.cottongen.org/)获取了22种二倍体棉种及一个外类群物种G. kirkii(Kirkii)的组装基因组,具体信息(DOI和URL)列于表S1中。绘图代码已提交至Githup(https://github.com/xqwang1990/Cotton_Pangenome_Plot)。补充材料(方法、图、表、脚本、图形摘要、幻灯片、视频、中文版内容及更新资料)可在线通过DOI或访问iMeta科学网站http://www.imeta.science/imetaomics/获取。

引文格式

Xueqiang Wang, Hejun Lu, Yan Zhao, Zhiyuan Zhang, Jun Li, Zeyu Dong, Yupeng Hao, et al. 2024. A super pan-genome map provides genomic insights into evolution of diploid cotton species. iMetaOmics 15: e15. https://doi.org/10.1002/imo2.15

作者简介

33021b0636d3e139bd8b139f7dc88945.jpeg

王学强(第一作者)

● 中国农业大学硕博连读,浙江大学/海南省崖州湾种子实验室博士后。

● 目前为崖州湾国家实验室博士后,研究方向为水稻多组学分析与基因挖掘,相关学术成果已发表于Journal of Advanced Research、iMetaOmics、Journal of Integrative Plant Biology和BMC Plant Biology等期刊。

40e47029289432465fa189046e6e798a.jpeg

卢合均(第一作者)

● 比利时列日大学博士,2020-2023年在浙江大学农学与生物技术学院从事博士后工作。

● 目前研究方向为群体遗传学功能基因挖掘及作物育种4.0技术的开发应用,相关成果已发表在Crop Journal、BMC Plant biology 等期刊。

7d13705ce42d61872948dadccccc033f.jpeg

赵炎(第一作者)

● 中国农业大学农学博士,山东农业大学农学院副教授。

● 研究方向为作物重要基因发掘,和小麦在环境适应性进化及抵御逆境胁迫中的多倍体优势及其育种利用;相关学术成果已发表于BMC Biology、Plos Genetics、Journal of Integrative Agriculture和BMC Plant Biology等期刊。

909257e8c6be1f32f9b479833b05f92c.jpeg

张志远(第一作者)

● 南京农业大学农学院博士,浙江大学农业与生物技术学院和德克萨斯州大学奥斯汀分校分子生物科学系博士后。

● 目前研究方向为作物重要性状的分子机制解析,相关学术成果已发表于The Plant Cell、Nature Genetics、Plant Biotechnology Journal等期刊。

1444fa53384f569164400abd04d62f5d.jpeg

张天真(通讯作者)

● 浙江大学求是特聘教授,博士生导师。

● 主要从事棉花育种目标性状的基因与基因组学研究,种质资源遗传基础与创新,及作物育种新方法和新品种选育等科学研究工作。在Nature Biotechnology,Nature Genetics, Nature Communication, Plant Cell, PNAS等国际知名刊物上发表SCI论文150多篇;已育成推广棉花新品种12个,研究成果获授权专利15项,国家奖2项,省部级一、二等奖8项。先后荣获 Cotton Biotechnology Award、国家杰出青年科学基金、973首席科学家、“新世纪百千万人才工程”国家级人选等荣誉。

iMetaOmics

更多资讯

●  iMeta姊妹刊iMetaOmics(定位IF>10)欢迎投稿!(2024.2.27)

●  iMeta姊妹刊iMetaOmics编委招募 (定位IF>10) (2024.3.2)

●  iMeta姊妹刊iMetaOmics电子版和印刷版ISSN申请获批(2024.4.1)

●  iMeta姊妹刊iMetaOmics投稿系统正式上线(2024.4.17)

●  iMeta姊妹刊iMetaOmics主编正式官宣(2024.4.22)

● 出版社iMetaOmics主页正式上线!(2024.4.28)

● iMetaOmics | 浙江大学宗鑫组揭示两猪种宿主-肠道菌群互作差异

● iMetaOmics | 罗鹏/袁硕峰/苗凯/程全发表STAGER: 生成式人工智能可靠性的标准化测试和评估推荐

iMetaOmics | 徐州医科大杨欢组揭秘沙门氏菌-宿主-微生物群在免疫与代谢中的相互作用

● iMetaOmics | 中科院动物所金坚石组综述16S rRNA基因扩增子测序技术的“前世今生”

更多推荐

(▼ 点击跳转)

高引文章 ▸▸▸▸

iMeta | 引用7000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据

fd2816e62a92a0252d127ecd93984b5f.png

高引文章 ▸▸▸▸

iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法

e970cc7f8753c24e0105490a86f98a4f.png

高引文章▸▸▸▸

iMeta | 高颜值绘图网站imageGP+视频教程合集                                        

bd4473cefe23e65a9f45ff1d2280c9e7.png

b040e8d7b918e222a33fd4121b56361c.jpeg

1卷1期

680fdb9c46dbeb05bbd2e00f3ec11ba2.jpeg

1卷2期

a343f4be792e8cfc662b24a6fa9dc9a4.jpeg

1卷3期

5f3b413e2219ca431234ad4f6b1e4e99.jpeg

1卷4期

6731a325794ff6b50a391ed8af67ed23.jpeg

2卷1期

351a6d772b943153f70c7e6647ca7e7d.jpeg

2卷2期

bbe0dd0c656f6e9b6c6adab7519eb7b8.png

2卷3期

cbd2024bf2901b7c6adece5bd686762a.jpeg

2卷4期

1ad0439d2bf8d7b909979196fc43f1b1.png

3卷1期

1b4c189470e0355548ae8dd59cbf7f37.png

2卷2期封底

d4b146d88c9a1b7bccc99914f1a0bd97.jpeg

2卷4期封底

a6f7fe0b4374f9c19afe1129e85a6ed4.jpeg

3卷2期

487e03086a36c8825f878735e3b49f37.png

3卷3期

12ff7627127f6275260765c3cf5574ff.jpeg

3卷3期封底

期刊简介

“iMeta” 是由威立、肠菌分会和本领域数百千华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表原创研究、方法和综述以促进宏基因组学、微生物组和生物信息学发展。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、前3年免出版费、50万用户的社交媒体宣传等。2022年2月正式创刊发行!发行后相继被Google Scholar、ESCI、PubMed、DOAJ、Scopus等数据库收录!2024年6月获得首个影响因子23.7,位列全球SCI期刊前千分之五(107/21848),微生物学科2/161,仅低于Nature Reviews,同学科研究类期刊全球第一,中国大陆11/514!

“iMetaOmics” 是“iMeta” 子刊,主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任,定位IF>10的高水平综合期刊,欢迎投稿!

联系我们

iMeta主页:

http://www.imeta.science

姊妹刊iMetaOmics主页:

http://www.imeta.science/imetaomics/

出版社iMeta主页:

https://onlinelibrary.wiley.com/journal/2770596x

出版社iMetaOmics主页:

https://onlinelibrary.wiley.com/journal/29969514

iMeta投稿:

https://wiley.atyponrex.com/journal/IMT2

iMetaOmics投稿:

https://wiley.atyponrex.com/journal/IMO2

邮箱:

office@imeta.science

【使用教程】 一、环境配置 1、建议下载anaconda和pycharm 在anaconda中配置好环境,然后直接导入到pycharm中,在pycharm中运行项目 anaconda和pycharm安装及环境配置参考网上博客,有很多博主介绍 2、在anacodna中安装requirements.txt中的软件包 命令为:pip install -r requirements.txt 或者改成清华源后再执行以上命令,这样安装要快一些 软件包都安装成功后才算成功 3、安装好软件包后,把anaconda中对应的python导入到pycharm中即可(不难,参考网上博客) 二、环境配置好后,开始训练(也可以训练自己数据集) 1、数据集准备 需要准备yolo格式的目标检测数据集,如果不清楚yolo数据集格式,或者有其他数据训练需求,请看博主yolo格式各种数据集集合链接:https://blog.csdn.net/DeepLearning_/article/details/127276492 里面涵盖了上百种yolo数据集,且在不断更新,基本都是实际项目使用。来自于网上收集、实际场景采集制作等,自己使用labelimg标注工具标注的。数据集质量绝对有保证! 本项目所使用的数据集,见csdn该资源下载页面中的介绍栏,里面有对应的下载链接,下载后可直接使用。 2、数据准备好,开始修改配置文件 参考代码中data文件夹下的banana_ripe.yaml,可以自己新建一个不同名称的yaml文件 train:训练集的图片路径 val:验证集的图片路径 names: 0: very-ripe 类别1 1: immature 类别2 2: mid-ripe 类别3 格式按照banana_ripe.yaml照葫芦画瓢就行,不需要过多参考网上的 3、修改train_dual.py中的配置参数,开始训练模型 方式一: 修改点: a.--weights参数,填入'yolov9-s.pt',博主训练的是yolov9-s,根据自己需求可自定义 b.--cfg参数,填入 models/detect/yolov9-c.yaml c.--data参数,填入data/banana_ripe.yaml,可自定义自己的yaml路径 d.--hyp参数,填入hyp.scratch-high.yaml e.--epochs参数,填入100或者200都行,根据自己的数据集可改 f.--batch-size参数,根据自己的电脑性能(显存大小)自定义修改 g.--device参数,一显卡的话,就填0。没显卡,使用cpu训练,就填cpu h.--close-mosaic参数,填入15 以上修改好,直接pycharm中运行train_dual.py开始训练 方式二: 命令行方式,在pycharm中的终端窗口输入如下命令,可根据自己情况修改参数 官方示例:python train_dual.py --workers 8 --device 0 --batch 16 --data data/coco.yaml --img 640 --cfg models/detect/yolov9-c.yaml --weights '' --name yolov9-c --hyp hyp.scratch-high.yaml --min-items 0 --epochs 500 --close-mosaic 15 训练完会在runs/train文件下生成对应的训练文件及模型,后续测试可以拿来用。 三、测试 1、训练完,测试 修改detect_dual.py中的参数 --weights,改成上面训练得到的best.pt对应的路径 --source,需要测试的数据图片存放的位置,代码中的test_imgs --conf-thres,置信度阈值,自定义修改 --iou-thres,iou阈值,自定义修改 其他默认即可 pycharm中运行detect_dual.py 在runs/detect文件夹下存放检测结果图片或者视频 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值