2022年3月,华盛顿大学医学院基因组科学系的Evan E. Eichler,加州大学圣克鲁斯基因组研究所Karen H. Miga和美国马里兰州贝塞斯达国立卫生研究院国家人类基因组研究所计算与统计基因组学分会基因组信息学科Adam M. Phillippy等团队在Science期刊上联合发表了题为“The complete sequence of a human genome”的文章。端粒对端粒( Telomere-to-Telomere Consortium, T2T )联盟完成了第一个真正完整的30.55亿碱基对的人类基因组序列,这是自人类参考基因组首次发布以来最大的进步。
截至目前,该文章被引1097次!
第一个真正完整的人类基因组序列,从头到尾覆盖每条染色体,没有间隙,且具有前所未有的准确性;现在可以通过 UCSC 基因组浏览器访问。
加州大学圣克鲁兹分校生物分子工程助理教授 Karen Miga 和美国国家人类基因组研究所(NHGRI) 的 Adam Phillippy 组织了一个国际科学家团队——端粒到端粒(Telomere-to-Telomere,T2T)联盟——来填补人类基因组缺失的部分;如今该研究已经取得了重要成果!
2022 年 3 月 31 日发表在《Science》杂志上的六篇论文,对该研究进行了描述。
人类基因组的完整序列
「The complete sequence of a human genome」
论文链接:https://www.science.org/doi/10.1126/science.abj6987
自 2000 年首次发布以来,人类参考基因组仅涵盖基因组的常染色质部分,而重要的异染色质区域尚未完成。
端粒到端粒联盟针对剩下的 8% 基因组,提出了一个完整的 30.55 亿碱基对人类基因组序列 T2T-CHM13,其中包括除Y以外的所有染色体的无间隙组装,纠正了之前参考文献中的错误,并引入了近 2 亿碱基对序列,其中包含 1956 个基因预测,其中 99 个被预测为蛋白质编码。
完成的区域包括所有着丝粒卫星阵列、最近的节段重复和所有五个近端着丝粒染色体的短臂,将基因组的这些复杂区域解锁到变异和功能研究。
完整的参考基因组改进了人类遗传变异的分析
「A complete reference genome improves analysis of human genetic variation」
论文链接:https://www.science.org/doi/10.1126/science.abl3533
与其前身相比,Telomere-to-Telomere CHM13 基因组增加了近 2 亿个碱基对序列,纠正了数千个结构错误,并为临床和功能研究解锁了人类基因组中最复杂的区域。
研究人员展示了该参考如何普遍改进读取映射和变体调用,分别对 3202 和 17 个全球多样化样本进行短读取和长读取测序。她们在以前未解决的区域中识别出每个样本数十万个变体,展示了 T2T-CHM13 参考对进化和生物医学发现的承诺。
同时,该研究消除了每个样本中数万个虚假变体,包括将 269 个医学相关基因中的假阳性减少了 12 倍。由于在变异发现方面的这些改进,再加上群体和功能基因组资源,T2T-CHM13 将取代 GRCh38,成为人类遗传学的主要参考。
完整人类基因组中的片段重复及其变异
「Segmental duplications and their variation in a complete human genome」
论文链接:https://www.science.org/doi/10.1126/science.abj6965
尽管它们在疾病和进化中很重要,但高度相同的片段重复(SD)是人类参考基因组(GRCh38)中最后一个完全测序的区域之一。使用完整的端粒到端粒人类基因组 (T2T-CHM13),研究人员提供了人类 SD 组织的全面视图。
SD 占额外序列的近三分之一,将全基因组估计从 5.4% 增加到 7.0% [2.18 亿碱基对 (Mbp)]。对 268 个人类基因组的分析表明,91% 的先前未解析的 T2T-CHM13 SD 序列(68.3 Mbp)更好地代表了人类拷贝数变异。
比较来自人类 (n = 12) 和非人类灵长类动物 (n = 5) 基因组的长读长组装,我们系统地重建了生物医学相关和重复基因的进化和结构单倍型多样性。
该分析揭示了人类与其他灵长类动物之间 SD 组织结构杂合性和进化差异的模式。
人类着丝粒的完整基因组和表观遗传图谱
「Complete genomic and epigenetic maps of human centromeres」
论文链接:https://www.science.org/doi/10.1126/science.abl4178
现有的人类基因组组装几乎完全排除了着丝粒内和附近的重复序列,限制了我们对它们的组织、进化和功能的理解,包括促进适当的染色体分离。
现在,一个完整的端粒到端粒人类基因组组装 (T2T-CHM13) 使研究人员能够全面地表征构成基因组 6.2% 的着丝粒周围和着丝粒重复序列(189.9 兆碱基)。
这些区域的详细图谱显示了多碱基结构重排,包括活性着丝粒重复阵列。对着丝粒相关序列的分析揭示了着丝粒的位置与周围 DNA 通过分层重复扩展的进化之间的密切关系。
此外,对不同个体组中 X 染色体着丝粒的比较揭示了这些复杂且快速进化的区域中高度的结构、表观遗传和序列变异。
从端粒到端粒:人类重复元件的转录和表观遗传状态
「From telomere to telomere: The transcriptional and epigenetic state of human repeat elements」
论文链接:https://www.science.org/doi/10.1126/science.abk3112
移动元件和重复基因组区域是谱系特异性基因组创新和独特指纹个体基因组的来源。对此类重复元件的综合分析,包括在基因组更复杂区域中发现的重复元件,需要完整的线性基因组组装。
科学家提出了 T2T-CHM13 人类参考基因组的从头重复发现和注释。研究人员确定了以前未知的卫星阵列,扩展了重复和移动元素的变体和家族目录,表征了复杂复合重复的类别,并定位了逆转录转导事件。
研究人员检测了新生转录并描绘了 CpG 甲基化谱,以定义人类转录活性逆转录元件的结构,包括着丝粒中的逆转录元件结构。这些数据扩展了科学家对塑造人类基因组的重复区域的多样性、分布和进化的洞察力。
完整人类基因组中的表观遗传模式
「Epigenetic patterns in a complete human genome」
论文链接:https://www.science.org/doi/10.1126/science.abj5089
端粒到端粒人类参考基因组 T2T-CHM13 的完成已经解决了基因组的复杂区域,包括重复和同源区域。
在这里,研究人员提出了对以前未解决的序列的高分辨率表观遗传研究,代表了整个近端染色体短臂、基因家族扩展和重复类别的多样化集合。
该资源精确映射 CpG 甲基化(3228 万个 CpG)、DNA 可访问性和短读长数据集(166,058 个以前未解决的染色质免疫沉淀测序峰),以提供以前未识别或校正的基因的活性证据,并揭示临床相关的旁系同源物特异性调节。
对来自六个不同个体的人类着丝粒的 CpG 甲基化进行探测,可以估计动粒定位的变异性。该分析提供了一个框架,可以用来研究人类基因组中最难以捉摸的区域,从而深入了解表观遗传调控。
最完整的人类基因组揭示了以前难以辨认的 DNA
在对人类基因组进行测序时,“完整”一直是一个相对术语。第一个是 20 年前破译的,它包括了编码蛋白质的大部分区域,但留下了大约 2 亿个 DNA 碱基——占人类基因组的 8%——未被触及。即使额外的基因组“完成”,一些延伸仍然遥不可及,因为重复的 DNA 片段混淆了当时的测序技术。现在,一项国际基层工作已经整理出那些难以阅读的碱基,产生了迄今为止最完整的人类基因组。
「我认为我们甚至在 5 年前甚至在 10 年前都无法想象到这一点。」生物信息学家 Ewan Birney 说,他是欧洲分子生物学实验室的副主任,也是最初的「人类基因组计划」的一部分 。
T2T 研究人员表示,新测序的片段揭示了基因进化的热点,并强调了人类基因组的混乱历史。
基因编辑公司 Inscripta 的基因组学家 Deanna Church 说,它「确实让我们对基因组中不可见的区域有了一些了解」。
「泛基因组学是关于捕获人类群体的多样性,也是关于确保我们正确捕获整个基因组。」UCSC生物分子工程副教授、T2T论文的合著者、泛基因组学研究的领导者 Benedict Paten 说,「如果没有跨多个个体的基因组中这些难以测序的区域的图谱,那么我们就会错过我们人口中存在的大量变异。T2T 让我们能够查看从端粒到端粒的数百个基因组。这无疑是伟大的!」
「T2T 工作反映了加州大学圣克鲁斯分校和其他地方的许多人持续和专注的努力。十年来,Karen Miga 一直在努力将真正的着丝粒序列纳入人类基因组组装,这终于取得了成果!」基因组学研究学者 James Kent 说,「我很高兴看到这项工作与从其他人类祖先获得端粒到端粒序列的努力相结合。我们正在迅速朝着真正完整的人类基因组表示迈进。」
相关报道:https://www.eurekalert.org/news-releases/947629
https://www.science.org/content/article/most-complete-human-genome-yet-reveals-previously-indecipherable-dna
更多推荐
(▼ 点击跳转)
iMeta | 引用7000+,海普洛斯陈实富发布新版fastp,更快更好地处理FASTQ数据
iMeta | 德国国家肿瘤中心顾祖光发表复杂热图(ComplexHeatmap)可视化方法
1卷1期
1卷2期
1卷3期
1卷4期
2卷1期
2卷2期
2卷3期
2卷4期
期刊简介
“iMeta” 是由威立、肠菌分会和本领域数百位华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表原创研究、方法和综述以促进宏基因组学、微生物组和生物信息学发展。目标是发表前10%(IF > 15)的高影响力论文。期刊特色包括视频投稿、可重复分析、图片打磨、青年编委、50万用户的社交媒体宣传等。2022年2月正式创刊发行!目前期刊已经被ESCI、Scopus等数据库收录。
联系我们
iMeta主页:http://www.imeta.science
出版社:https://onlinelibrary.wiley.com/journal/2770596x
投稿:https://mc.manuscriptcentral.com/imeta
邮箱:office@imeta.science