继往开来,生信领域再攀高峰!还记得2023年度的“中国生物信息学十大进展”吗?这一年度评选由 《基因组蛋白质组与生物信息学报(英文)》(Genomics, Proteomics & Bioinformatics,简称 GPB) 主办,自2018年以来,每年遴选出具有里程碑意义的研究成果,见证生信领域的蓬勃发展。今天,2024年度评选结果正式出炉啦!这一年,生物信息学又有哪些突破性的发现呢?你的研究领域是否榜上有名嘞?快来一探究竟吧!👇
📌 注:排名不分先后,按标题首字母顺序排列。
- 如果小伙伴们有需求的话,可以加入我们的交流群:一定要知道 | 永久免费的环境友好型生信学习交流群又双叒叕来啦!| 伴随不定期群友好物分享!在这里,你可以稍有克制地畅所欲言!
- 超级建议大家在入群前或入群后可以看一下这个:干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!让你不虚此看!
- 如果有需要个性化定制分析服务的小伙伴,可以看看这里:你要的个性化生信分析服务今天正式开启啦!定制你的专属解决方案!全程1v1答疑!!绝对包你满意!
以下为本年度入选的十项重大生物信息学进展:
咱们下面挨个给大家介绍一下!
人类跨脑区细胞图谱 — Brain Cell Atlas
单细胞技术发展和大规模数据积累使得发现稀有细胞类型成为可能。广州国家实验室苗智超团队和中山大学刘胜团队合作,通过人工智能(AI)算法和大规模数据整合,构建了首个整合的“人类跨脑区细胞图谱”。该图谱不仅首次在成人海马中发现了潜在的神经祖细胞,为“成年人是否仍有神经发生”这一长期争议提供了关键证据;还鉴定出一个新的小胶质细胞亚群,揭示了其在不同脑区的功能差异,指出了细胞与脑区功能的关联。作为第一版“人类细胞图谱”的重要组成部分,该图谱为比较不同环境和条件下的大脑细胞提供了重要资源,有助于神经发生和神经退行性疾病研究。—— 该成果发表于 Nature Medicine
推荐理由:构建了首个整合的“人类跨脑区细胞图谱”,是国际人类细胞图谱计划的重要一环
-
数据库链接:www.braincellatlas.org
-
原文信息:Chen X, Huang Y, Huang L, Huang Z, Hao ZZ, Xu L, et al. A brain cell atlas integrating single-cell transcriptomes across human brain regions. Nature Medicine 2024;30:2679–91. PMID: 39095595.
-
原文链接:https://www.nature.com/articles/s41591-024-03150-z
基于培养的人类肠道真菌基因组描述肠道真菌生物群落及其疾病关联性
大连医科大学王超、马骁驰团队牵头,联合中国科学院上海药物研究所果德安团队和法国农业科学研究院Francis Martin团队,大规模培养了12,453株人体肠道真菌,获得760个基因组(含69个新基因组),涉及48个科、206个物种,明确了人群中高丰度真菌和广泛流行的真菌物种。聚焦炎性肠病相关的特征性肠道真菌,发现三株真菌能够有效缓解多种因素诱导的小鼠溃疡性结肠炎,并明确法尼醇类活性代谢物和法尼醇X受体作用靶点。该研究丰富了对肠道真菌组的分类学、功能和代谢多样性的理解,为真菌生物技术领域的未来研究开辟新的视野。—— 该成果发表于 Cell
推荐理由:利用培养组技术得到了迄今最大的人类肠道真菌参考基因组目录
-
数据库链接:
-
原文信息:Yan Q, Li S, Yan Q, Huo X, Wang C, Wang X, et al. A genomic compendium of cultivated human gut fungi characterizes the gut mycobiome and its relevance to common diseases. Cell 2024;187:2969–89.e24. PMID: 38776919.
-
原文链接:https://www.cell.com/cell/fulltext/S0092-8674(24)00469-0
AI^2BMD 实现量子级精度的蛋白质动力学模拟
分子动力学模拟是生命科学研究中通用的计算方法,已被广泛用于生物分子机理研究以及药物和疫苗的设计,而其方法的有效性和可靠性取决于其准确性和效率。微软研究院王童、邵斌团队提出了基于AI的量子级精度的生物分子动力学系统(AI2BMD),首次实现了量子级别精度的蛋白质动力学模拟。AI2BMD以量子级(从头计算)的精度高效地模拟了多种由超过1万个原子组成的全原子蛋白质,比量子力学方法快百万倍以上,为蛋白质折叠过程、构象空间探索、自由能等热力学性质的计算带来更为准确的描述和分析,从而为蛋白质动态机理探索、药物研发和蛋白质设计等领域带来全新的视角。—— 该成果发表于 Nature
推荐理由:AI^2BMD首次实现量子级别精度的蛋白质动力学模拟
-
AI^2BMD数据集、模型和模拟代码链接:https://github.com/microsoft/AI2BMD
-
原文信息:Wang T, He X, Li M, Li Y, Bi R, Wang Y, et al. Ab initio characterization of protein molecular dynamics with AI2BMD. Nature 2024;635:1019–27. PMID: 39506110.
-
原文链接:https://doi.org/10.1038/s41586-024-08127-z
鉴定同源长非编码 RNA 的新方法 — lncHOME
长非编码RNA(lncRNA)在多种生理和疾病过程中发挥调控作用,但传统的序列比对方法只能在不同物种间鉴定出极少的同源lncRNA,极大限制了对lncRNA功能的研究。清华大学张强锋团队与北京大学汪阳明团队、席建忠团队合作开发了一套鉴定不同物种间同源lncRNA的计算方法(lncHOME)。该方法通过比较基因组和机器学习的AI方法,在包括人类和斑马鱼在内的八种脊椎动物中鉴定出了500多个在不同物种中具有保守基因组位置及保守RNA结合蛋白结合位点模式的lncRNA,同时还通过基因敲除和回补筛选系统验证了所鉴定的同源lncRNA在不同物种中的保守功能。该工作极大地扩展了当前脊椎动物中保守的lncRNA库,为研究lncRNA的进化、功能及作用机制提供了新的视角和资源。—— 该成果发表于Nature Genetics
推荐理由:开发的lncHOME方法可鉴定不同物种间的同源长非编码RNA
-
原文信息:Huang W, Xiong T, Zhao Y, Heng J, Han G, Wang P, et al. Computational prediction and experimental validation identify functionally conserved lncRNAs from zebrafish to human. Nature Genetics 2024; 56:124–35. PMID: 38195860.
-
原文链接:https://doi.org/10.1038/s41588-023-01620-7
基于序列图像化策略的基因组结构变异检测和多样本分型 — SVision-pro
基因组结构变异(SV)与丰富多彩的生物性状和严重疾病表型密切相关。西安交通大学叶凯团队前期开发了SVision方法,首次将序列图像化策略引入到生殖系SV检测领域。为了应对遗传病和癌症研究所需的家系新生和体细胞SV检测,该团队进一步开发了SVision-pro方法,将SV检测和分型问题统一转化为图像空间的SV实例分割问题,直接比较图像化的样本测序差异,实现了高精确性、低假阳性的新生、体细胞SV检测,为后续从大规模临床诊断数据中发现关键致病SV提供了关键技术支撑,为基于AI+的生物序列计算框架提供了新思路。—— 该成果发表于 Nature Biotechnology
推荐理由:基于“序列-图像”转换策略的SVision-pro创新算法支撑大规模专病队列和临床诊断数据中关键致病结构变异的发现
-
原文信息:Wang S, Lin J, Jia P, Xu T, Li X, Liu Y, et al. De novo and somatic structural variant discovery with SVision-pro. Nature Biotechnology 2025;43:181–5. PMID: 38519720.
-
原文链接:https://doi.org/10.1038/s41587-024-02190-7
基因序列数据库 — GenBase
随着生命科学的迅猛发展,基因序列数据快速增长。国家生物信息中心-国家基因组科学数据中心鲍一明、唐碧霞团队建立了基因序列数据库GenBase,提供一站式的基因序列汇交、存储、管理和共享服务。GenBase遵循国际核酸序列数据库联盟(INSDC)国际标准,目前累计接收超10万条核酸序列和超100万条蛋白序列,同时还整合了INSDC超6.2亿条序列,并实现每日同步更新。GenBase通过建立严格的质量控制体系和专家审编机制,有效保障数据完整性和可重用性,为全球科研工作者提供从数据汇交到检索的全流程服务,持续推动生命科学领域的数据共享与科研创新。—— 该成果发表于Genomics, Proteomics & Bioinformatics
推荐理由:国家生物信息中心核心数据库之一,对标 GenBank,立足中国、服务全球
-
原文信息:Bu C, Zheng X, Zhao X, Xu T, Bai X, Jia Y, et al. GenBase: a nucleotide sequence database. Genomics, Proteomics & Bioinformatics 2024;22:qzae047. PMID: 38913867.
-
原文链接:https://doi.org/10.1093/gpbjnl/qzae047
单细胞大规模基础模型 — scFoundation
清华大学张学工团队、马剑竹团队与百图生科宋乐团队突破性研发出全球首个参数规模超亿的单细胞转录组预训练模型scFoundation。该研究通过独创的非对称编码架构设计和测序深度感知学习任务,有效突破了单细胞数据高维度稀疏性和测序深度差异显著两大瓶颈,成功在5000万级单细胞数据体量上完成模型训练。scFoundation支持零样本迁移学习、少样本微调和多模型联合建模等先进范式,为细胞聚类,基因网络推断等基础研究分析提供了强大的工具,显著提升了药物反应预测与基因扰动预测等应用任务效果。研究团队同步开源了模型权重和框架,拓展了单细胞领域基础模型的边界。—— 该成果发表于 Nature Methods
推荐理由:全球首个参数规模超亿的单细胞转录组预训练模型 scFoundation 极大推动了AI驱动的科学研究范式转变
-
原文信息:Hao M, Gong J, Zeng X, Liu C, Guo Y, Cheng X, et al. Large-scale foundation model on single-cell transcriptomics. Nature Methods 2024;21:1481–91. PMID: 38844628.
-
原文链接:https://www.nature.com/articles/s41592-024-02305-7
泛癌种B细胞异质性的生物信息学解析
肿瘤浸润B细胞是多种癌症类型预后以及免疫治疗响应的标志物,但其在不同癌症类型中的异质性尚未得到系统性研究。北京大学张泽民、王东方团队与深圳湾实验室陈敏敏团队基于多癌种单细胞测序数据的系统性生物信息学整合,构建肿瘤原位B细胞成熟和激活的全景图谱,鉴定患者预后相关的关键B细胞亚型。研究发现稀有B细胞亚群肿瘤相关非典型B细胞(TAAB)和CD4 T细胞的互惠激活,揭示了肿瘤微环境免疫调控的新规律,挖掘B细胞作为预后、治疗响应新靶点的潜力。该研究从泛癌种视角为B细胞的异质性及其抗肿瘤免疫反应提供了新的见解,并为未来进一步探索B细胞在癌症中功能的共性和多样性奠定了基础。—— 该成果发表于 Cell
推荐理由:构建高质量肿瘤浸润B细胞的泛癌单细胞图谱,为B细胞的异质性及其抗肿瘤免疫反应提供了新的见解
-
原文信息:Yang Y, Chen X, Pan J, Ning H, Zhang Y, Bo Y, et al. Pan-cancer single-cell dissection reveals phenotypically distinct B cell subtypes. Cell 2024;187:4790–4811.e22. PMID: 39047727.
-
原文链接:https://doi.org/10.1016/j.cell.2024.06.038
哺乳动物高分辨率谱系追踪揭示肿瘤起源与进化新机制
哺乳动物体内细胞谱系复杂难以精确追踪。这极大限制了我们对肿瘤起源和进化机制的理解。中国科学院深圳先进技术研究院胡政团队与中山大学贺雄雷团队、何真团队合作,基于进化合成生物学策略首次建立了哺乳动物细胞高分辨谱系追踪技术和算法,重构了小鼠肠癌多阶段的高精度单细胞谱系树,揭示肠癌在初期是多克隆起源,随后转变为单克隆的进化发展模式,并解析了肿瘤从“温和”走向“凶恶”的关键基因和细胞互作机制。该研究突破了肿瘤是单克隆起源的传统认知,为理解肿瘤发生机制提供全新理论框架,有望推动肿瘤精准早筛和靶向干预的发展。—— 该成果发表于 Nature
推荐理由:建立了哺乳动物细胞高分辨谱系追踪技术和算法,突破了经典的肿瘤单克隆起源理论,首次提出从多克隆到单克隆转变的早期肿瘤演化模式
-
数据库链接:
-
原文信息:Lu Z, Mo S, Xie D, Zhai X, Deng S, Zhou K, et al. Polyclonal-to-monoclonal transition in colorectal precancerous evolution. Nature 2024;636:233–40. PMID:39478225.
-
原文链接:https://www.nature.com/articles/s41586-024-08133-1
AI 重新定义病毒圈
病毒多样性的认知受限于基于同源性的发现方法,大量病毒仍处于未知状态。高效、准确地发现新病毒仍是挑战。中山大学施莽团队,阿里云李兆融团队与悉尼大学Edward Holmes团队共同研发了一种基于蛋白质序列和结构信息的深度学习语言模型来识别RNA病毒关键蛋白,准确率超过99%。利用该模型分析了10,487份宏转录组数据,发现超51万个RNA病毒基因组(contigs),涵盖16万余种RNA病毒及180个超群。其中23个超群无法通过同源性分析识别,被称为病毒圈的“暗物质”。这项研究将AI与病毒基因组发现结合,突破了传统的病毒发现方法的局限,扩展了人们对病毒圈的认知,率先将AI应用于病毒学领域,为未来AI在病毒学乃至更广泛的生命科学领域发挥核心作用奠定基础。—— 该成果发表于 Cell
推荐理由:利用人工智能技术发现了180个病毒超群和16万余种全新RNA病毒,将已知病毒种类扩充了近30倍
-
原文信息:Hou X, He Y, Fang P, Mei SQ, Xu Z, Wu WC, et al. Using artificial intelligence to document the hidden RNA virosphere. Cell 2024;187:6929–42.e16. PMID: 39389057.
-
原文链接:https://doi.org/10.1016/j.cell.2024.09.027
文末碎碎念
那今天的分享就到这里啦!我们下期再见哟!
最后顺便给自己推荐一下嘿嘿嘿!
如果我的分享对你有用的话,欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴!这可是我的第一原动力!
蟹蟹你们的喜欢和支持!!!