High-quality genome of a modern soybean cultivar and resequencing of 547 accessions provide insights into the role of structural variation
现代大豆品种的高质量基因组及对547个种质资源的重测序揭示结构变异的作用
摘要
大豆提供蛋白质、油脂以及多种与健康相关的化合物。理解结构变异(SV)对现代育种中经济性状的影响对大豆改良至关重要。在此,我们组装了现代品种农大豆2号(NDD2)的高质量基因组,并在与已报道的29个基因组的比较中鉴定出25,814个SV-基因对,其中在547个深度重测序(平均覆盖度=18.05倍)的种质资源中验证了13个NDD2特有的SV,这促进了我们对基因组变异生物学的理解。我们发现了一些与种子蛋白质和重量形成相关的插入/缺失变异,一个与干旱适应相关的倒位,以及一个与大豆关键分化事件相关的大型染色体互易易位。在547个种质资源中鉴定出的749,714个SV中,有6,013个与在十个不同地点和年份环境下确定的22个与产量和种子品质相关的性状显著关联。我们还发现了1,761个关联SV落在基因或调控区域,其中12个位于GmMQT,影响油脂和异黄酮含量。我们的研究为大豆改良中的SV作用提供了资源和见解。
正文
大豆(Glycine max)是一种重要的豆科作物,提供了全球超过一半的油料作物产量和四分之一的蛋白质,以及许多与健康和药物相关的化合物1,2,3。理解大豆产量、种子品质及其他重要特性的遗传基础,对于科学界来说,高质量的参考基因组具有重要的生物学意义。尽管越来越多的大豆基因组已经被组装,这对于揭示植物驯化和育种的见解至关重要,但几乎所有已组装的种质资源都在2010年之前获得批准(参考文献1,4,5,6,7,8,9,10,11)。自2011年起(中国大豆育种和种子工业的第三阶段),大豆品种的产量和种子质量改良取得了巨大进展;然而,现代品种基因组的表征仍然十分有限。
结构变异(SV),包括插入、缺失、倒位和易位,已被证明在植物进化、驯化和育种中扮演着越来越重要的角色12,13。泛基因组的构建揭示了野生和栽培大豆中大量非冗余的SV11,14,其中两个SV被发现决定了种皮颜色和光泽11。在POWR1的CCT结构域中的插入/缺失被证明可以增加大豆种子的重量和油含量,同时降低蛋白质含量15。许多SV被证明影响了番茄果实的特性及其对各种病害的抗性16。在棉花中,通过参考现代品种基因组,挖掘出了数百个SV,这些SV与纤维质量和产量相关性状在数十年的育种过程中紧密相关12。与其他作物相比,SV对大豆重要性状如产量、种子质量和营养成分的遗传影响仍需进一步研究。已经验证,增加种质资源和提高测序深度是关联研究中进行变异探索的有效策略17,18。因此,有必要基于现代品种基因组并通过深度重测序更多种质资源,全面揭示大豆SV的作用。
在本研究中,我们报告了现代品种农大豆2号(NDD2)的高质量参考基因组,该品种于2014年发布并自那时以来被广泛种植(补充图1)。NDD2展现了许多优良特性,如大粒种子(百粒重(HSW)=26.9克)、高产量(在河北省大豆区域试验中较对照显著提高4.12%)、高种子蛋白质含量(SPC;43.56%)、对大豆花叶病毒的高抗性(SC3和SC7株系的病害指数分别为12%和6%),并成功克服了产量、种子质量和病害抗性之间的权衡19(补充表1)。此外,我们对来自中国九省和美国大豆种植区的547个种质资源进行了迄今为止最深入的重测序(~20倍覆盖度),大约70%的资源不同于之前的研究11。基于三年七个地点的十个环境中31个植物学和经济学重要性状的表征,我们鉴定了大量未在先前基因组中报道的SV和基因。现代大豆品种的高质量基因组以及群体的深度重测序为大豆改良中SV的作用提供了见解。
结果
高质量的现代品种NDD2基因组增加了基因组资源
我们通过整合五种测序技术对NDD2基因组进行了测序,生成了总计138.51 Gb的PacBio单分子实时序列,N50为26.74 kb;121.85 Gb的Nanopore序列,N50为26.64 kb;473.35 Gb的Bionano光学图谱数据,平均长度为267 kb;102.57 Gb的Illumina双端测序碱基以及362.86百万对染色质构象捕获(Hi-C)相互作用对(补充表2-5)。我们应用了一种改进的策略20,组装了NDD2的染色体级基因组,总大小为1,013.66 Mb,contig N50值为27.16 Mb,与29个泛基因组种质资源中表现最好的基因组相当1,7,9,11(表1,图1a,b及补充图2)。为了评估组装基因组的质量,我们将高质量的双端测序读段重新比对到组装上,达到了99.75%的比对率和99.56%的基因组覆盖率(补充表6)。进一步的评估显示,组装的质量值(QV)为41.83,超过了脊椎动物基因组计划的QV40标准(参考文献21)。此外,基因组中约99.70%的胚基植物基准通用单拷贝直系同源基因(BUSCOs)和98.79%的超保守真核基因存在(补充表6)。我们还与其他29个已发表的染色体级大豆基因组进行了共线性分析,得到了平均共线性率96.34%的结果(补充表7)。我们在NDD2基因组的所有染色体中恢复了Cent91/92大豆特有的着丝粒重复序列22。值得注意的是,我们成功生成了端粒序列(即CCCTAAA/TTTAGGG重复序列23),这在除四条染色体外的单端组装中较为困难(图1c)。与29个泛基因组资源相比1,7,9,11,我们生成的端粒组装(40条中的36条)为最佳(补充表8)。综上所述,我们组装了一个具有良好准确性、完整性和连续性的现代大豆基因组。
Genomic features | NDD2 |
---|---|
Assembled genome size (Gb) | 1.01 |
Percentage of anchoring (%) | 97.65 |
Number of contigs | 256 |
Number of scaffolds | 187 |
Contig N50 (Mb) | 27.16 |
Scaffold N50 (Mb) | 50.87 |
Gap number | 69 |
GC content (%) | 35.03 |
Repeat ratio (%) | 51.46 |
Predicted PCG model number | 58,899 |
BUSCOs (%) | 99.70 |
a. 与其他27个contig N50大于10 Mb的大豆基因组相比,NDD2基因组的contig N50值增加。我们将contig按从长到短的顺序累积,当contig累积长度达到总基因组长度的x%时,相应contig的长度为n(x)。图中的黑色虚线对应每个基因组组装的contig N50和N90值。 b. NDD2组装中20条染色体的染色质相互作用。每个热图的分辨率为500 kb。深红色点表示高概率的相互作用,浅色点表示低概率的相互作用。 c. NDD2基因组中着丝粒和端粒的密度分布与另外三种代表性大豆(W05、Wm82和ZH13)相比。 d. 根据将每条染色体划分为等宽的1,000个窗口,Gypsy、蛋白编码基因(PCG)和Copia的平均密度分布。
随后,我们预测了NDD2中560.92 Mb(占55.34%)的转座元件,其中长末端重复序列(LTRs)占比最高(44.39%),主要是Gypsy(42.85%)和Copia(20.20%;补充表9)。我们鉴定了58,899个蛋白编码基因(PCGs),其中96.70%具有功能注释,8,503个基因显示了Gypsy和Copia的插入(补充表10-12)。此外,我们估计96.51%的同源PCGs在与已发表的大豆基因组中的蛋白质序列相似度超过80%(补充表13),并且根据166个转录组数据,91.93%的基因表达得到了验证(补充表14),表明NDD2的98.73%的PCGs得到了支持。此外,2.38%(1,404个)的PCGs显示出小于20%的相似度,定义为新预测的基因(补充表15)。值得注意的是,我们发现48个新预测的基因位于至少一个之前发表的基因组中有缺口的序列中(补充数据1),其中17个基因得到了转录组或功能数据库的支持(补充表16),并通过PCR扩增和Sanger测序验证了8个随机选择的基因(补充图3)。
接下来,我们通过将每条染色体划分为1,000个等宽窗口,分析了每条染色体上PCGs的密度分布,发现在靠近染色体端粒的20%窗口中PCGs分布最为集中,与其他区域相比增加了0.57倍(P < 2.20 × 10−10,Wilcox检验),而与Gypsy和Copia元件的模式相反,分别减少了0.24倍和2.37倍(P < 2.20 × 10−10,Wilcox检验)(图1d)。该现代品种基因组为大豆重要性状的遗传解析和改良提供了基因组资源。
在NDD2中探索SV提供了对现代育种的见解
高质量的NDD2组装为探索现代大豆育种中的基因组SV提供了潜力。我们使用NDD2基因组和2