【bioinformation 3】人工智能与肿瘤靶点识别

本文探讨了人工智能在肿瘤疾病中的应用,包括肿瘤靶点识别的概述、建模方法(如转录组、单细胞转录组、表观遗传模型),以及多模态分析和靶点发现。文章强调了AI在处理大规模异构数据、识别模式以及个性化治疗策略中的关键作用。
摘要由CSDN通过智能技术生成

🌞欢迎来到AI的世界 
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创!

📆首发时间:🌹2024年3月12日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


目录

人工智能与肿瘤靶点识别概述

肿瘤疾病介绍与治疗

人工智能与肿瘤建模

人工智能与肿瘤转录组模型

肿瘤转录组异质性

人工智能与单细胞转录组数据分析

人工智能与单细胞表观肿瘤模型

人工智能与基于染色质可及性的肿瘤表观遗传模型

人工智能与多模态肿瘤模型

基于多组学的肿瘤研究模式

人工智能与多组学数据建模

人工智能与靶点识别

人工智能与基于表观的靶点发现


人工智能与肿瘤靶点识别概述

肿瘤疾病介绍与治疗

    在我们人体中无时无刻都在进行细胞分裂,这一过程收细胞核控制。在细胞核内部DNA指导这一过程的发生。人体由数万亿个细胞组成,癌症可以发生在人体的任何部位。通常人体细胞生长、分裂并形成新生细胞,来满足机体需要。当细胞衰老或损伤时,细胞就会死亡,然后由新生细胞取代。但是,癌症的发生终止了这一有序的过程。随着细胞变得越来越异常,这些本该死亡的、衰老或受损的细胞继续存活,并且形成新生细胞,这些多余的新生细胞会持续分裂并形成肿瘤。

靶点的意思是:与药物特异性结合的生物大分子的统称。

     靶点的种类主要有受体、酶、离子通道和核酸,存在于机体靶器官细胞膜上或细胞质内。迄今为止所发现的药物作用靶点总数约为500个左右,其中还不包括抗菌、抗病毒等作用靶点,其中受体尤其是G蛋白偶联受体靶点占据绝大多数。

靶点的分类:

(1)以受体为靶点:药物与受体结合才能产生药物效应,理想的药物必须具有高度的选择性和特异性。选择性即要求药物对某种病例状态产生稳定的功效,而特异性是指药物仅与疾病治疗相关联的受体或者受体压型结合。

(2)以酶为靶点:由于酶是催化生成或灭活一些生理反应的介质和调控剂,因此,酶构成了一类重要的药物作用靶点。酶抑制剂通过抑制某些代谢过程,降低酶促反应产物的浓度而发挥其药理作用。

(3)以离子通道为靶点:带电荷的离子通过离子通道进出细胞,来传输信息从未介导细胞正常的生命活动,是人类生命过程的重要组成部分。

(4)以核酸为靶点:人们普遍认为肿瘤的癌变是由于基因突变导致基因表达失调和细胞无限增殖所引起的,因此可将癌基因作用药物设计的作用靶点,利用反义技术抑制癌细胞的增殖。


 

    肿瘤药物研发是人工智能(Artificial intelligence, AI)的重要应用场景。靶点识别是肿瘤药物研发的关键抓手。人工智能为基于组学数据的肿瘤靶点识别提供了强大的计算工 具。人工智能,更具体地说是机器学习(Machine learning, ML)分支, 可以处理大规模异构数据集,并识别出数据中的潜藏模式。目前,决策树、支持向量机等众多人工智能模型均已广泛应用到了组学数据建模和肿瘤靶点识别中。


人工智能与肿瘤建模

人工智能与肿瘤转录组模型
肿瘤转录组异质性

      癌症的一大普遍特点是转录失调,转录组指的是细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA 及非编码RNA, 细胞的转录组可以随外部环境条件转变。

人工智能与单细胞转录组数据分析

       目前已有多种算法可以从繁杂的 RNA 测序序列中提取出用于生物学分析的转录组信息。

由于单细胞 RNA 数据是超高维的,数据降维可降低实验误差与数据噪声的影响,并挖掘数据内部的本质结构特征,便于后续计算以及数据可视化。主流的降维和特征提取算法可以分为基于矩阵分解的、基于图的和基于神经网络的降维算法三大类,其中主流的为主成分分 析、t-随机邻域嵌入、均匀流形逼近和投影。主成分分析(Principal components analysis, PCA)是最常用的线性降维方法。t-随机邻域嵌入是一种非线性降维方法,能够根据在邻域图上随机游走的概率分布在数据中找到其 结构关系。均匀流形逼近和投影(Uniform Manifold Approximation and Projection, UMAP)是基于 k-近邻理论使用随机梯度下降优化结果。

人工智能与单细胞表观肿瘤模型

                                               机器学习在表观遗传的应用

人工智能与基于甲基化测序技术的肿瘤表观遗传模型

       机器学习在表观遗传领域的研究多集中于分类问题。问题核心是如何建立一个模型,能够准确预测出给定样本的类别信息,例如从阵列数据中区分正常与癌症样本。主要的方法包括支持向量机(Support vector machine, SVM)、决策树(Decision tree, DT)、随机森林(Random forest, RF)和朴素贝叶斯(Naive bayes, NB)等

人工智能与基于染色质可及性的肿瘤表观遗传模型

      目前已经开发了各种分析工具来使用 scATAC-seq 数据研究单细胞表观基因组,可以分为四大类。第一类是无监督学习算法,包括聚类和降维。chromVAR 利用开放染色质区域中出现的转录因子(Transcription factor, TF)基序,使用流型学习中的 t-SNE 算法将单个细胞的偏差校正向量投影到二维上。该算法的优势在于它可用于计算与染色质可及性显著相关的 TF 结合谱,能够精确地聚类 scATAC- seq 剖面,并表征与染色质可及性变异相关的已知和新的序列基序[56]; 另一种 scABC 算法则仅依赖于基因组区域内的读取计数模式,通过使用无监督的k-medoids 聚类来聚类细胞,并证明了细胞类型特异性开放启动子可以更好地识别细胞类型特异性表达[57];SCRAT 则是一种较为成熟的方便用户使用的软件,用于根据不同特征(例如基因集、转录因子结合基序位点等)方便地总结调控活动。利用这些特征,用户可以识别异质生物样本中的细胞亚群,推断每个亚群的细胞身份, 并发现显示亚群之间不同活动的基因集和转录因子等显著特征[58]。第二类是将染色质可及性当作序列模型,用自然语言处理的方法进行分析。例如 Cusanovich 等人对构建小鼠器官单细胞图谱的大规模研究, 使用潜在语义分析(Latent semantic analysis, LSA)来识别细胞簇,确定了数百种具有复杂性状的细胞类型,这些数据定义了单细胞角度下常见哺乳动物细胞关于调控基因组的体内景观[59]。Carmen Bravo González-Blas 提出了概率框架cisTopic,对增强子和稳定细胞状态联合建模,用于分析造血细胞、大脑和转录因子扰动的单细胞 ATAC-seq 数据集。实验表明该算法模型可以有效识别细胞类型、识别增强子、相关转录因子,挖掘细胞异质性信息[60]。第三类是使用图或网络的模型。例如 Cicero 等提出了基于图Lasso 的预测 DNA 的顺式调控元件方法,通过使用相似细胞组的采样和聚合来量化假定的调控元件之间的相关性,发现这些预测的相互作用与其他染色质 3D 结构数据兼容[61]。第四类为综合分析工具,如Scasat[62]和SnapATAC[63]等。

人工智能与多模态肿瘤模型
基于多组学的肿瘤研究模式

多组学(multi-omics)分析,是指同时在多种不同的生物分子层面对研究对象进行的定量分析,通过将基因组、表观组、转录组、蛋白组和代谢组等不同模态的分子数据进行整合,来揭示潜藏在数据后的生物规律。目前,肿瘤多组学数据日益丰富和强大。传统的肿瘤多组学分析以个体为研究对象,已有一众大型国际合作项目和众多小型研究积累了大量宝贵的临床样本,The Cancer Genome Atlas(TCGA, https:// cancergenome.nih.gov)、International Cancer Genome Consortium

(ICGC, https://icgc.org)等国际项目所收录的肿瘤样本均超万例,每个样本均测量了基因组、转录组等多种组学特征,为描述肿瘤个体间差异提供了群体信息和宝贵的临床信息。新兴的单细胞多模态技术将肿瘤多组学分析的分辨率从个体水平提升至单个细胞水平,为深入解析肿瘤内部细胞在不同分子模态上的差异提供了有力工具。图 1-2 简要总结了目前已实现的单细胞多组学技术[64],单细胞多组学技术为描述肿瘤内部异质性提供了强大的工具,被 Nature Method 评为 2019 年年度方法。

人工智能与多组学数据建模

      人工智能在单细胞多组学领域的应用可分为两种场景。第一种场 景是不同组学的测量对象(细胞)不匹配。由于技术复杂度和测量成本等因素,会发生不同批次的细胞分别测了一种单细胞组学的场景。通常,研究人员会假设每种组学测的细胞来自同一个分布,即不同组学测的细胞不同,但每种组学测的细胞群体在细胞构成、细胞状态上不应该有显著差异。目前,最近邻[65]、典型相关分析[66]、非负矩阵分解[67, 68]、流形对比[69, 70]、统计模型[71]、变分自编码器[72]等多种机器学习方法均已应用到不匹配场景下的单细胞多组学分析中。第二种场景 是不同组学的测量对象是同一批细胞,即真正意义上的单细胞多模态。这类场景中常见的人工智能模型可分为三类[73]。第一类是基于矩阵分 解的方法,将每种组学数据描述为一个特征矩阵和一个系数矩阵的乘积,并假设细胞在不同组学层面共享相同的系数矩阵,这类方法中代表性的工作有MOFA+[66]等;第二类是基于神经网络的方法,利用神经网络的高度灵活性和强大的特征提取功能,让神经网络学习到可以同时编码多种组学特征的低维向量,从而实现对单细胞多组学数据的整合,这类方法中代表性的工作有scMVAE[74]、totalVI[75]等;第三类是基于网络表示的方法,先用单个组学特征构建细胞的相似性网络, 然后基于网络融合的方式得到单细胞多组学网络表示,这类方法中代表性工作有Seurat v4[76]。


人工智能与靶点识别

人工智能与基于表观的靶点发现

基于表观组学分析的人工智能方法可应用于癌症亚型分类,协助指定个性化临床治疗方案。目前甲基化分析已被用于预测胆管癌[98]、非典型畸胎样/横纹肌样肿瘤的生存、复发风险或治疗结果[99]、脑肿瘤

[100]或肺肿瘤[101]。基于蛋白修饰微阵列数据分析可预测癌症复发,例

如前列腺癌和膀胱癌[102, 103]。Jurmeister P 等人对原发性肿瘤进行了DNA 甲基化分析,开发了基于神经网络的分类模型,在 279 名 HNSC 和 LUSC 患者以及正常肺对照的验证队列中正确分类了 96.4%的病例,为后续选择临床治疗方案提供支持[104]。基于 DNA 甲基化的癌症分类器也被用于确定未知原发性癌症的原发部位,以辅助治疗决策和改善预后。Moran 等人描述了一种基于微阵列 DNA 甲基化特征的临床诊断方案,从大约 3000 个肿瘤样本中训练机器学习模型,并在测试集中取得近 100%的肿瘤分类准确度[105]。Rong Xu 等人使用来自癌症基因组图谱 TCGA 的 18 种不同癌症起源的 7,339 名患者的 DNA 甲基化数据开发了基于深度神经网络(Deep neural network, DNN)的癌症起源分类器。与现有的基于病理学和基于基因表达微阵列数据的模型相比更准确,并具有在临床环境中易于实施的独特优势[106]。 人工智能方法在表观组学分析中的另一用途是肿瘤-健康细胞差异分析和靶点识别[107]。近年,以 Vorinostat 为代表的表观遗传靶向药物已陆续获 FDA 批准进入市场[108]。同时,新靶标不断被发现,如DNMT1[109]、PRMT[110]等。Chip-seq 等染色质免疫沉淀测序技术提供了分析蛋白质与DNA 交互作用的新手段,从染色质-蛋白结合的角度解析细胞的表观遗传机制与作用[111],由此产生的各类大量表观组学数据为人工智能方法开发和靶点发现提供了大量机遇[112]。例如,清华大学谭春燕团队使用SVM 预测了基于由 VEGFR-2、Abl-1 和 ERK- 2 介导的经过充分研究的抗癌信号网络,并进一步开发出了同时靶向这三种蛋白质的烟酰胺类化合物 NEPT[113]。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卿云阁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值