说在前面
今天分享一篇很典型的诊断模型筛选标志物的生信思路,三件套筛出关键靶点,ceRNATF调控圆一圆,再加上实验验证,简单易复现。
今天给大家分享一篇JCR一区,诊断模型的文章:Identification of pivotal genes and regulatory networks associated with atherosclerotic carotid artery stenosis based on comprehensive bioinformatics analysis and machine learning
- 标题:基于综合生物信息学分析和机器学习识别与动脉粥样硬化性颈动脉狭窄相关的关键基因和调控网络
- 期刊名称:Frontiers in Pharmacology
- 影响因子:5.6
- JCR分区:Q1
- 中科院分区:医学2区
- 小类:药学2区
摘要
这是一项关于动脉粥样硬化性颈动脉狭窄(ACAS
)的研究,旨在通过生物信息学方法探索与该疾病相关的关键基因和调控网络,并为该疾病的治疗提供新的见解。
方法:
该研究利用了来自NCBI GEO数据库的五个ACAS数据集(GSE100927
、GSE11782
、GESE28829
、GSE41571
和GSE43292
)。前四个数据集被合并为训练集(n = 99),而GSE43292(n = 64)则被用作验证集。接着对训练集进行差异分析和功能富集分析。通过蛋白质相互作用网络和MCODE分析,结合三种机器学习算法筛选出ACAS的致病靶点。结果通过组间差异分析和ROC曲线分析进行验证。随后进行免疫相关功能和免疫细胞相关性分析,并利用人类ACAS的斑块进行免疫组化(IH
)和免疫荧光(IF
)验证结果。最后,构建表征基因的竞争性内源RNA(ceRNA
)和转录因子(TFs
)调控网络。
结果:
共鉴定出177个差异表达基因,其中包括67个下调基因和110个上调基因。基因集富集分析显示,实验组中有五个通路活跃,包括异种移植排斥、自身免疫性甲状腺疾病、移植物抗宿主病、利什曼病感染和溶酶体。鉴定出四个关键基因,其中C3AR1
上调,而FBLN5
、PPP1R12A
和TPM1
下调。组间差异分析表明,这四个表征基因在对照组和实验组中表达差异显著。ROC分析显示,它们在训练集和验证集中的AUC值较高。因此,基于筛选基因建立了一个预测ACAS患者的预测模型。相关性分析显示C3AR1
表达与中性粒细胞呈正相关,这在IH和IF中得到了验证。一种或多种长链非编码RNA可能与表征基因竞争结合miRNA。此外,每个表征基因与多个转录因子相互作用。
结论:
筛选出四个关键基因,并预测了相关的ceRNA和转录因子。这些分子可能在ACAS中发挥关键作用,并成为潜在的生物标志物和治疗靶点。
关键词:颈动脉狭窄,动脉粥样硬化,机器学习,致病标志物,治疗靶点
结果
图1
差异表达基因(DEGs)的鉴定。
- (A)显示了来自四个数据集的样本存在批次效应;
- (B)通过消除批次效应,来自四个数据集的样本消除了批次效应;
- (C)所有基因的火山图;
- (D)67个下调基因和110个上调基因的热图。
图2
177个差异表达基因(DEGs)的功能富集分析。
- (A)GO分析结果;
- (B)KEGG分析结果;
- (C)对照组中五个活跃通路;
- (D)实验组中五个活跃通路。
图3
蛋白质-蛋白质相互作用(PPI)和MCODE分析。
- (A)DEGs的PPI;
- (B–H)从MCODE分析中获得的七个重要功能模块。红色代表上调基因,蓝色代表下调基因。
图4
三种机器学习算法筛选特征基因。
- (A)LASSO系数路径图,每条曲线代表一个基因;
- (B)Lasso回归分析的交叉验证曲线。当使用9个基因进行分析时,Lasso拟合最佳,交叉验证误差最小;
- (C)SVM-RFE算法确定7个基因时的最高准确率(0.909);
- (D)SVM-RFE算法确定7个基因时的最低误差率(0.0911);
- (E)随机森林树的数量与误差率之间的关系;
- (F)基因按重要性降序排列;
- (G)三种算法获得的基因的Venn图。
图5
四个特征基因的组间差异分析。
- (A)在训练集中四个特征基因表达差异分析,用小提琴图表示;
- (B)在验证集中四个特征基因表达差异分析,用小提琴图表示;
- (C)四个特征基因的表达水平线图。
图6
四个特征基因的ROC分析。
(A、B)分别是训练集(A)和验证集(B)中四个特征基因的ROC分析结果。
图7
预测ACAS风险的对齐图模型。
- (A)用于预测ACAS的对齐图。
- (B)用于评估模型预测准确性的校准曲线。
- (C)用于评估模型的临床影响曲线。
- (D)显示ACAS患者获益的决策曲线分析。
图8
表征基因的免疫相关功能和免疫细胞相关性分析。
- (A–D)C3AR1(A)、FBLN5(B)、PPP1R12A(C)和TPM1(D)的高低表达组在免疫相关功能上的差异箱线图;
- (E–H)C3AR1(E)、FBLN5(F)、PPP1R12A(G)和TPM1(H)与22种免疫细胞类型的相关性棒棒糖图。
图9
ACAS患者内膜和斑块中C3AR蛋白水平。
- (A)ACAS患者内膜(左)和斑块(右)中C3AR1、MPO和MCP7的IH染色。
- (B)ACAS患者斑块中C3AR1(红色)和MPO(绿色)的IF染色(放大倍数,×400)。
- (C–E)C3AR1、MPO和MCP7 IH结果的显著差异分析箱线图。
图10
表征基因的ceRNA。
(A–D)C3AR1(A)、FBLN5(B)、PPP1R12A(C)和TPM1(D)的ceRNA调控网络。红色代表表征基因,绿色代表miRNAs,蓝色代表lncRNAs。
图11
表征基因的转录因子(TFs)调控网络。
(A–D)C3AR1(A)、FBLN5(B)、PPP1R12A(C)和TPM1(D)的TFs调控网络。
小结
- 主要数据及方法:
Types | Notes |
---|---|
分析数据 | 训练集:GSE100927、GSE11782、GSE41571;测试集:GSE43292 |
分析方法 | limma差异分析;GOKEGG+GSEA富集;PPI网络+MCODE插件;LASSO-SVMRFE-RF三机器学习;rms和rmda包构建列线模型;免疫评分和相关性分析;ceRNA和TF网络 |
实验技术 | 这里用了10个病灶组织样本,免疫组化+免疫荧光验证 |