Stacked Autoencoder Based Multi-Omics Data Integration for Cancer Survival Prediction

keil啊

已于 2025-03-10 20:20:06 修改

阅读量855

点赞数 20

分类专栏：生信分析文章标签： python 人工智能机器学习生信分析多组学 pytorch

于 2025-03-10 20:18:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53625879/article/details/146162908

版权

生信分析专栏收录该内容

2 篇文章

订阅专栏

目录

多组学数据整合的重要性

数据异质性

现有方法的局限性

数据预处理

缺失值插补

两阶段降维与整合

堆叠自编码器

风险预测模型

验证并测试风险预测模型

综述

该论文提出了一种基于堆叠自编码器的多组学数据整合方法 SAEsurv-net，用于癌症生存预测。通过两阶段降维和堆叠自编码器模型，有效解决了多组学数据的高维和异质性问题，实验结果表明该方法在多个癌症数据集上表现优于现有方法。

研究背景

多组学数据整合的重要性

癌症的发生和发展涉及基因组、转录组、表观基因组等多个层面的变化，整合多组学数据能更全面地揭示癌症机制，提高生存预测准确性。

挑战

维度灾难

多组学数据特征维度极高（如基因表达数据有 6 万 + 特征），易导致过拟合和计算复杂度问题。

数据异质性

不同组学数据在特征数量、分布、尺度等方面存在差异，整合难度大。

现有方法的局限性

早期整合

将数据直接进行拼接，可能会导致维度爆炸和噪声增加。

晚期整合

将模型的结果进行融合，这将无法捕捉组学间交互作用。

中间整合

对模型进行联合训练，难以处理高维输入。

研究方法

数据获取

从TCGA 获取癌症的基因表达、CNV 和临床数据。
从UCSC Xena网站下载整理过的癌症的基因表达、CNV 和临床数据。

数据预处理

归一化

基因表达数据进行 log2 转换和标准化，临床数据处理为独热编码或标准化

临床数据

对临床数据中的非数值列进行独热编码，数值列进行归一化处理。

基因表达

对基因表达的特征列进行归一化处理。

特征筛选

临床数据

筛选p值小于0.05的特征

CNV

对于CNV的筛选需要有三步，第一步是根据方差进行筛选，筛选方差不为零的特征列；第二步是筛选重置值的特征列；第三步是筛选高表达的特征列。

基因表达

对基因表达的特征也需要进行三步筛选，相较于CNV，在筛选高表达特征列前对特征值进行稀疏化处理，筛选后恢复特征值。

缺失值插补

这里有一个列名为是否使用辐射疗法的临床数据特征列，其列值中存在缺失值，这里采用众数插补法，对缺失值进行插补。

两阶段降维与整合

第一阶段

对每个组学数据独立进行上述数据预处理过程。

第二阶段

堆叠自编码器

对基因表达和 CNV 数据分别训练自编码器，提取低维特征。

将两组学特征拼接并与临床信息拼接

训练第二个自编码器，生成跨组学整合特征

风险预测模型

将跨组学特征作为输入，训练风险模型预测生存风险（Prognostic Index, PI）。

训练风险预测模型

实验结果

验证并测试风险预测模型

结果

平均的验证CI值为68.81%，平均的测试CI值为67.24%,最大的验证CI值为77.25%，最大的验证CI值为65.28%,与原论文中62.12%相比还略高一些😀

源码

本人将原来的代码进行修改，并采用Pytorch重新实现，主要分为两个文件，data_preprocess.py文件用于对数据进行预处理，train.py文件用于两阶段训练和风险预测模型的评估。代码下载链接

结论

该论文提出了两阶段SAE框架以及一个基于深度学习的风险预测模型，有效的解决了高维和异质性问题，通过非线性特征学习提升了模型的鲁棒性。

博客等级

码龄4年

13
原创

87
点赞

80
收藏

52
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

C缺陷与陷阱-习题与参考答案
CSDN-Ada助手: 不知道 C 技能树是否可以帮到你：https://edu.csdn.net/skill/c?utm_source=AI_act_c
朴素贝叶斯分类器
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题中的“朴素贝叶斯分类器”让我非常感兴趣。您对这个主题的深入探讨无疑会为读者们提供有价值的知识。下一步，我建议您考虑探究一些与朴素贝叶斯分类器相关的实际应用案例，或是深入研究该算法在不同领域的表现。这样的拓展将为读者提供更多实用的信息，并且对您自己的学术研究也将会有所帮助。希望您能继续保持创作的势头，期待您的下一篇博客！
K-近邻算法
CSDN-Ada助手: 恭喜您写了第14篇博客！标题为“K-近邻算法”。您的持续创作真是令人钦佩。K-近邻算法是一个非常实用的算法，能够在各种问题中发挥重要作用。希望您能在接下来的博客中继续分享更多关于机器学习和数据分析的知识，或许可以探讨一下其他常用的分类算法，以丰富读者的知识视野。谦逊的态度与广泛的知识结合，一定会给读者带来更多的启发和思考。祝愿您在未来的创作中取得更大的成果！
简单实现决策树
CSDN-Ada助手: 恭喜您第15篇博客！看到您分享了如此有趣的主题，我感到非常兴奋。对于决策树的简单实现，我觉得您的解释非常清晰易懂。接下来，我建议您可以尝试探索一些高级的决策树算法，或者是结合其他机器学习技术来进一步丰富您的内容。期待看到您更多精彩的创作！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。