Pan-cancer analysis shapes the understanding of cancer biology and medicine
综述简介
癌症的复杂性与传统分类的局限性
癌症是一种高度异质性的慢性疾病,是全球主要死亡原因之一。传统上,癌症按起源组织分类,但不同癌症类型在发病率、死亡率及分子机制上存在显著差异。
尽管存在差异,不同癌症间仍存在共同特征(如通路、病因和治疗靶点),基于分子特征重新细分癌症亚型是目前的重点研究方向。
泛癌症分析的意义与方法
泛癌症分析是一种综合研究方法,通过比较多种癌症类型揭示关键生物学过程的失调,推动癌症生物学和医学的发展。
癌症基因组图谱(TCGA) 对33种癌症的20,000+样本进行多组学分析,为泛癌症研究提供数据基础。研究涵盖基因组、表观基因组、转录组、蛋白质组和临床数据,促进对癌症机制的系统理解。
人工智能(AI)推动泛癌症研究
AI 提升了数据处理和模式识别效率,助力生物标志物发现。
综述目标与展望
本文总结泛癌研究的关键发现,并探讨其对未来癌症研究的影响。旨在全面理解泛癌症分析在肿瘤生物学和临床应用中的当前作用及未来潜力。
1.泛癌研究的发展里程碑事件
泛癌症分析的发展可分为两个时期:
-
2013–2019年:以基因组学、转录组学和表观基因组学为主,奠定共享分子机制基础。
-
2020–2024年:研究重点和方法显著变化,整合单细胞组学、空间组学等多维数据,强化功能研究与临床转化。
1.1 早期研究(2013–2019年)
核心方向:
生物标志物识别、基因组特征分析及多组学探索。
关键成果:
TCGA项目建立大规模泛癌症研究,提供大规模数据资源,推动泛癌症研究标准化。
–https://www.cancer.gov/ccg/research/genome-sequencing/tcga
–https://pcawgscout.bsc.es/
例子:
1. 泛癌体细胞拷贝数变异的共同特征:Pan-cancer patterns of somatic copy number alteration
2. 泛癌体DNA甲基化模式:Pan-Cancer Landscape of Aberrant DNA Methylation across Human Tumors
3. ERBB2突变靶向治疗潜力:Pan-Cancer Landscape and Analysis of ERBB2 Mutations Identifies Poziotinib as a Clinically Active Inhibitor and Enhancer of T-DM1 Activity
局限性:样本代表性不足、功能验证有限。
1.2 近期进展(2020–2024年)
技术革新:单细胞测序、空间组学及多组学整合。
解析TME异质性:A pan-cancer blueprint of the heterogeneous tumor microenvironment revealed by single-cell profiling
例子:
1.识别临床相关基因组亚型:Pan-cancer identification of clinically relevant genomic subtypes using outcome-weighted integrative clustering
2. T细胞靶向疗法和免疫抵抗机制探索:Pan-cancer identification of clinically relevant genomic subtypes using outcome-weighted integrative clustering
1.3 未来趋势
泛癌症研究正从描述性分析转向 机制解析与临床转化:
-
个体化治疗:基于生物标志物的精准用药。
-
跨癌种疗法:共享靶点与通路的联合策略。
-
多学科融合:AI、单细胞技术、功能实验协同深化癌症认知。
2.改进泛癌症分析的分析方法的发展
2.1 改进数据整合
挑战与需求
泛癌症分析依赖于大规模多组学和多模态数据集的整合(如下表所示),但传统方法在处理此类复杂数据时存在局限性。
AI驱动的数据整合革新研究范式
1. 预测多药反应的组织特异性生物标志物:Tissue-specific identification of multi-omics features for pan-cancer drug response prediction
2. 癌症病理图像分类:A visual–language foundation model for pathology image analysis using medical Twitter
3. 癌症预后评估:A machine learning algorithm with subclonal sensitivity reveals widespread pan-cancer human leukocyte antigen loss of heterozygosity
当前局限性与前沿探索
数据多样性不足:现有模型多聚焦于图像和文本数据,限制了多模态数据的全面利用。
可以利用深度学习从组织病理学图像生成转录组数据(一种模态数据生成另一种模态数据),显著提升了癌症治疗反应和复发风险预测的准确性
–1. A deep-learning framework to predict cancer treatment response from histopathology images through imputed transcriptomics
–2. Digital profiling of gene expression from histology images with linearized attention
未来方向
需进一步开发多模态泛癌症数据集,以充分释放精准医疗的潜力。更广泛的数据类型整合(如蛋白质组、代谢组等),增强模型在临床场景中的适用性,是需要重点突破的方向。
2.2 识别共性和特异性
频率统计与假设检验提供了泛癌症生物事件分布的直观洞察。但难以应对复杂分析需求,需开发更高级算法。
机器学习与深度学习的优势
从传统组织学数据直接预测基因突变、分子分型、基因表达特征及病理标志物,显著提升预后评估及生物标志物发现效率。
例子:
1. 通过特征排序增强泛癌症共性生物标志物的预测通用性–NetRank Recovers Known Cancer Hallmark Genes as Universal Biomarker Signature for Cancer Outcome Prediction
2. 结合代谢模型提升机器学习准确性,提高代谢标志物与放射敏感性预测–Integration of machine learning and genome-scale metabolic modeling identifies multi
omics biomarkers for radiation resistance
3. 可解释深度学习模型,解析跨癌种共同/特异性通路–Deep profiling of gene expression across 18 human cancers
未来研究方向
设计能同时学习共享与独特癌症信息的网络架构;深化AI决策机制的生物学解码加强可解释性,推动临床转化。
2.3 改进个体癌症分析
泛癌症分析 vs. 个体癌症研究
个体癌症研究(尤其是罕见癌症)常面临数据不足问题,影响分类等任务准确性。
泛癌症分析通过整合多癌种数据,提供更丰富的训练资源,显著提升模型泛化能力。
自监督学习与基础模型的突破
在大型泛癌症数据集上预训练模型,再针对特定癌症微调,可解决小样本难题。
例子:
1. 基于多癌种组织病理学图像预训练,诊断罕见癌症–A foundation model for clinical-grade computational pathology and rare cancers detection
2. 通过跨癌种组织病理学图像特征学习,增强对特定癌症复杂性的解析能力–Towards a general-purpose foundation model for computational pathology
多模态特征提取与生物学解释挑战
深度学习优势:能从多组学、多模态数据中提取稳健特征,助力癌症分类与预后预测。
关键瓶颈:学习特征的生物学意义解析仍存在困难,但这对机制研究至关重要。
解决方案探索:HistoXGAN模型基于8,120张全切片图像训练,可从特征向量重建组织病理学图像。验证显示其保留基因表达模式,具备生物学可解释性,为机制研究提供新工具。
HistoXGAN–Generative adversarial networks accurately reconstruct pan-cancer histology from pathologic, genomic, and radiographic latent features
未来方向
扩大基础模型在泛癌症中的应用,提升罕见癌症分析能力。结合生成模型(如GAN)与多组学数据,揭示深度学习特征的生物学基础,提升模型的可解释性。
3.泛癌症分析在揭示癌症生物学中的作用
泛癌症分析从病因、发病机制、异质性、肿瘤微环境(TME)和癌症演变等多个角度为癌症生物学提供了新的见解。
3.1 泛癌症分析增加了对癌症病因的见解
癌症的发生发展是遗传因素与环境因素共同作用的复杂过程。研究表明,虽然环境暴露(如辐射、病毒和化学物质)是重要诱因,但遗传因素在决定个体易感性方面起主导作用。以下是部分例子:
泛癌症基因组
泛癌症基因组研究已识别出568个关键驱动基因(如TP53、PIK3CA等),这些基因通过促进细胞增殖、逃避免疫监视等机制推动肿瘤进展。
–A compendium of mutational cancer driver genes
全基因组分析不仅揭示了体细胞突变的共性模式,还发现了染色体碎裂、端粒异常等早期事件,以及逆转座事件与基因组不稳定性的关联。
值得注意的是,传统认为的"乘客突变",通常被认为是“非驱动”突变,也可能影响肿瘤演进:
–Passenger Mutations in More Than 2,500 Cancer Genomes: Overall Molecular Functional Impact and Consequences
肿瘤内微生物
此外,最新研究发现肿瘤内微生物群落(如Dialister菌属)可通过调控DNA甲基化等表观遗传机制影响癌症进展,这为理解癌症病因提供了全新视角:
–The pan-cancer landscape of abnormal DNA methylation and intratumor microorganisms
这些多组学研究成果为癌症预防和精准治疗奠定了重要理论基础。
3.2 泛癌症分析可以揭示肿瘤异质性
肿瘤异质性是癌症的核心特征,表现为肿瘤内部和肿瘤间在遗传、表观遗传及功能层面的显著差异。
泛癌症分析通过整合多癌种数据,为系统解析这一复杂性提供了有力工具。以下是部分例子:
单细胞和空间组学方面
研究发现,即使同一患者的肿瘤细胞也存在基因亚型分化,这种异质性直接影响治疗响应和预后。单细胞技术(如scRNA-seq、scATAC-seq)和空间组学揭示了跨癌种共有的功能模块(如"缺氧"、"上皮间质转化"等)及41种与肿瘤内异质性相关的元程序,部分特征甚至在癌前病变中已出现。
–Cancer cell states recur across tumor types and form specific interactions with the tumor microenvironment
此外,空间转录组鉴定了六种肿瘤共有的活跃通路:
–Pathway centric analysis for single-cell RNA-seq and spatial transcriptomics data with GSDensity
多组学整合
而多组学整合正推动对异质性动态机制的深入理解。例如将scRNA-seq与scATAC-seq相结合,可以同时表征癌细胞的转录组和表观遗传异质性,从而动态地了解潜在机制:
–Single cell multi-omics reveal intra-cell-line heterogeneity across human cancer cell lines
未来需进一步融合单细胞与空间多组学数据,以全面揭示肿瘤异质性的分子基础及其临床意义。
3.3 泛癌症分析在表征肿瘤微环境(TME)中的作用
肿瘤微环境(TME)是肿瘤进展的核心调控者,其组成细胞(包括免疫细胞和基质细胞)通过复杂的相互作用影响癌细胞的生长、转移和治疗抵抗。TME具有跨癌种的共同特征,也存在组织特异性差异。
TME通过血管生成、免疫抑制等机制塑造肿瘤异质性,其中癌症相关成纤维细胞(CAFs)和T细胞亚群尤为关键。以下是部分例子:
基质细胞亚群方面
泛癌症单细胞分析揭示了跨癌种保守的基质细胞亚群(如68个亚群中46个为共享类型),并鉴定出CAFs的6种功能亚型,包括新型代谢型CAF(meCAF)。
–A pan-cancer blueprint of the heterogeneous tumor microenvironment revealed by single-cell profiling
免疫细胞方面
在免疫层面,T细胞衰竭呈现两条特征性分化轨迹,与特定转录因子(TOX/PRDM1)相关,某些衰竭相关转录因子的表达呈现一定的癌症类型偏倚。
–Single-Cell Analysis of the Pan-Cancer Immune Microenvironment and scTIME Portal
而B细胞则通过生发中心或滤泡外途径分化。
–Ablueprint for tumor-infiltrating B cells across human cancers
TME细胞亚群的精准解析为肿瘤分型、免疫治疗靶点开发提供了新方向,但需进一步探索其治疗调控机制。未来需整合多组学数据构建更全面的TME图谱,以推动精准医疗应用。
3.4 泛癌症分析可以表征癌症演变
泛癌症分析通过整合多组学数据,系统揭示了肿瘤演化的共性规律和早期驱动事件。以下是部分例子:
泛癌症基因组分析
基于2,658个泛癌症基因组的研究识别出四种典型演化模式(中性演化、克隆扩增等),这些模式与临床侵袭性和功能机制显著相关。
–The evolutionary history of 2,658 cancers
通过癌细胞分数(CCFs)建模发现,免疫微环境的重塑(如适应性/先天免疫细胞转换)与驱动基因克隆扩增密切相关。
–Pan-cancer evolution signatures link clonal expansion to dynamic changes in the tumour immune microenvironment
空间组学分析
最新空间组学技术(如Visium ST)进一步实现了78例六种癌症的空间演化解析,揭示了肿瘤亚克隆与局部微环境在二维/三维空间的互作特征。
–Tumour evolution and microenvironment interactions in 2D and 3D space
这些发现为理解肿瘤演化动力学提供了系统框架,并为靶向干预关键演化节点提供了理论依据。
4.精准医学十年中的泛癌症分析
4.1 癌症检测和筛查
泛癌症早期检测技术正从单一模态向多组学整合方向发展。以下是部分例子:
液体活检技术
液体活检技术(如cfDNA甲基化、ctDNA突变分析)联合蛋白质标志物检测(PROMISE研究)和PET-CT影像学检查,显著提高了多癌种筛查效率:
–Tumour evolution and microenvironment interactions in 2D and 3D space
蛋白质组学分析
蛋白质组学突破尤为突出,研究已鉴定出39种具有因果证据的循环蛋白标志物,其中11种具有跨癌种效应。
–Exploring the cross-cancer effect of circulating proteins and discovering potential intervention targets for 13 site-specific cancers
AI技术应用
人工智能技术深度应用于该领域,如图深度学习模型通过整合蛋白质组学与病理图像有效地将肿瘤与正常组织区分开来,并识别了起源组织:
–Deep learning integrates histopathology and proteogenomics at a pan-cancer level
这些发现不仅构建了系统的癌症生物标志物图谱,更为开发低成本、高精度的泛癌症筛查方案和靶向治疗策略奠定了分子基础。
4.2 癌症分类和亚型
泛癌症研究正推动癌症分类体系从传统病理分型向多组学整合的分子分型转变。以下是部分例子:
跨癌种特征模式
研究发现跨癌种存在的四种转移分子亚型和免疫特征模式:
–Pan-cancer molecular subtypes of metastasis reveal distinct and evolving transcriptional programs
–Discovering dominant tumor immune archetypes in a pan-cancer census
微生物组分析
微生物组分析则揭示念珠菌(胃肠道和肺癌)、马拉色菌(皮肤、乳腺癌和胰腺癌)等与预后相关的肿瘤特异性菌群:
–A pan-cancer mycobiome analysis reveals fungal involvement in gastrointestinal and lung tumors
–Pan-cancer analyses reveal cancer-type-specific fungal ecologies and bacteriome interactions
单细胞组学和空间组学
随着单细胞组学和空间组学在各种癌症类型中的扩展,肿瘤微环境中各种细胞亚群共进化的异质性已被揭示。总结这些模式、完善分子分类和指导检测策略是实现精准医学和标准化临床范式的关键步骤。
scATOMIC是一种用于定义19个常见癌症参考的恶性和非恶性细胞的模块化注释工具,可以准确地将乳腺癌分为临床相关亚型,并预测转移性癌症中肿瘤起源的意义:
scATOMIC–Pan-cancer classification of single cells in the tumour microenvironment
Cancer-Finder可以高精度识别单细胞或空间转录组数据中的恶性细胞或区域,还可以通过使用在该边界共定位的十个基因来识别肿瘤-正常界面,从而提供肿瘤检测策略:
–Domain generalization enables general cancer cell annotation in single-cell and spatial transcriptomics
人工智能技术
人工智能技术大幅提升诊断效率,深度学习模型通过整合放射组学、蛋白质组学和甲基化特征,使肿瘤亚型鉴定准确率显著提高。以下是部分例子:
整合组织学和蛋白质组学可以实现泛癌症的有效分类:
–Self-supervised attention-based deep learning for pan-cancer mutation prediction from histopathology
深度学习在区分肿瘤起源方面表现出强大的性能,有助于识别恶性肿瘤并预测胸腔积液和腹水中的肿瘤起源:
–Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning
这些进展标志着癌症诊断正进入多维度、智能化的精准医学新时代。
4.3 癌症治疗
肿瘤异质性和微环境复杂性对现有疗法提出严峻挑战,而泛癌症研究正为突破这一困境提供新思路。以下是部分例子:
癌细胞相关细胞亚群
研究发现肿瘤相关性成纤维细胞亚群,通过调控免疫检查点分子促进T细胞耗竭,形成免疫排斥屏障:
–Integration of Pan-Cancer Single-Cell and Spatial Transcriptomics Reveals Stromal Cell Features and Therapeutic Targets in Tumor Microenvironment
微生物
微生物组在塑造癌症治疗反应(尤其是免疫检查点抑制剂(ICIs))方面起着至关重要的作用。
宏基因组学、基因组学、转录组学和临床数据的综合分析表明,微生物多样性与肿瘤浸润中性粒细胞相关,特定微生物(如具核梭杆菌)与免疫治疗耐药显著相关:
–A pan-cancer analysis of the microbiome in metastatic cancer
整合多组学数据的AI预测平台
SELECT利用肿瘤转录组数据和基因相互作用来预测治疗反应,在多个临床试验中显示出广泛的适用性:
–A pan-cancer analysis of the microbiome in metastatic cancer
PERCEPTION整合了来自大规模细胞系药物筛选的批量和单细胞转录组数据,以基于患者的肿瘤单细胞转录组构建预测模型:
–PERCEPTION predicts patient response and resistance to treatment using single-cell transcriptomics of their tumors
类器官
3D类器官是模拟天然细胞微环境的3D细胞培养物,能够模拟器官组织发生和病理生理学。基因组和单细胞测序分析表明,肿瘤类器官保留了原始肿瘤的异质性,保留了它们的遗传和表型特征。
有研究开发了泛癌症患者来源肿瘤类器官,该类器官展示了模型一致性并优化了培养条件:
–A pan-cancer organoid platform for precision medicine
这些进展标志着癌症治疗正从"一刀切"转向基于微环境特征、微生物组谱和人工智能预测的精准干预新时代。
5.挑战与未来展望
泛癌症研究通过整合多组学数据,为理解癌症机制提供了系统性视角。与单一癌种研究相比,这种方法不仅能揭示跨癌种的共性分子特征,还能识别特异的诊疗靶点。
当前研究面临三大挑战:
一是需建立连接单一癌种与泛癌症研究的分析框架;
二是缺乏能解析多模态数据的可解释AI模型;
三是临床转化体系尚不完善。
未来突破点在于:
1)开发融合生态学概念的时空动态分析模型,解析癌症"生态系统"的演化规律;
2)构建跨学科诊疗平台,将组学发现转化为个性化治疗方案;
3)拓展更多癌种和组学维度,绘制更完整的泛癌症图谱。这些进展将推动癌症诊疗从经验性向预测性、预防性和个性化模式转变。