Integrating multi-omics data through deep learning for accurate cancerprognosis prediction_integrating multiple omics data for gene function -CSDN博客

考虑到实际应用场景中，获取多组学数据存在诸多困难，研究团队进一步探索优化方案。他们尝试仅利用mRNA数据，通过训练 XGBoost 模型来拟合风险估计值。令人惊喜的是，经测试该模型的平均 C-index 值达到了0.627。这一成果不仅为癌症预后预测提供了更具可行性的方法，也为后续相关研究开辟了新的思路。

研究背景

癌症是一种复杂的疾病，涉及基因与环境的一系列相互作用。临床研究发现，即便同为一种癌症类型的患者，其癌症预后也存在显著差异，这严重阻碍了有效癌症疗法的发展。因此，依据基因组信息精准区分高风险和低风险患者至关重要。目前，基于基因组学信息评估癌症预后风险的研究众多，其中基因表达（mRNA）数据最为常用。随着下一代测序技术的发展，DNA 甲基化、miRNA、拷贝数变异（CNV）等多种其他类型的基因组数据也可获取，整合多组学数据有助于更全面地捕捉癌症预后预测中的复杂性。

癌症基因组图谱（TCGA）组织对多种癌症的多组学数据进行了测序，推动了相关统计方法的发展，如基于稀疏偏最小二乘判别分析、无监督多核框架、语法进化神经网络等方法被用于多组学数据的整合与分析。然而，这些传统线性方法在处理多组学数据的高维异质性变量时，难以有效捕捉代表性特征。

深度学习技术在处理非线性问题方面表现出色，一些基于深度学习的方法也被应用于癌症生存分析，如 DL-Cox、使用自动编码器（Autoencoder）提取特征的方法等。但 Autoencoder 在学习代表性特征时易受数据噪声影响，且以往研究多聚焦于单一癌症类型，缺乏对泛癌的综合测试。

在这样的背景下，该论文提出了一种新的框架，以更有效地整合多组学数据，实现精准的癌症预后预测。

研究方法

数据预处理

数据获取

从TCGA数据库下载癌症数据集需要大量的工作去处理样本和四种多组学数据。 UCSC Xena 网站提供处理好的样本和组学数据，所以通过 UCSC Xena 获取样本数据与四种组学数据。这里以 LUSC 癌症为例。

在 UCSC Xena 数据库中找到 LUSC 癌症数据库后，点击进去里面包含了各种类型的数据，包括了我们要的mRNA、miRNA、DNA甲基化以及CNV数据。点击对应链接并下载即可获取对应数据。

数据预处理

在进行缺失值处理之前，我们需要对上述四种数据进行整合。首先，执行load_data载入样本信息与三种组学数据（由于本人电脑内存不够所以仅尝试了三种组学）。接着，执行process_data对每种组学数据进行单独处理,执行 process_mRNA_data对mRNA单独进行处理，函数内执行基因ID与基因Symbol的转换以及筛选基因类型为mRNA的基因，执行rocess_clinical_data对临床数据进行筛选仅保留样本的生存时间和生存状态。最后，执行merge_data对上述样本数据和组学数据进行整合，最终会生成处理好的单组学文件、临床信息文件和多组学文件。

缺失值处理的过程包括，先排除在超过 20% 患者中缺失的特征，接着排除缺失超过 20% 剩余多组学特征的患者样本，再剔除未删失样本少于 50 个的癌症数据集。对于剩余样本的缺失值，使用 R 包imputeMissings基于中位数进行填补。在这里，执行process_multi_data将会完成上述缺失值处理的全过程并生成LUSC_go.csv文件。