本次解读的是发表在BMC Medicine(IF=7)上的一篇文章《Mining the interpretable prognostic features from pathological image ofintrahepaticcholangiocarcinoma using multi-modal deep learning》,本篇文章探讨了深度学习技术在肝内胆管细胞癌(iCCA)预后评估中的应用。研究团队通过整合四个iCCA患者队列,利用全切片图像(WSIs)和深度学习模型进行了预后评估。研究中,模型1基于全局分割图(GSM)捕捉整个肿瘤的宏观特征,而模型2则专注于显微镜下可见的细胞级特征。通过多组学数据分析,研究揭示了肿瘤形态特征与分子层面改变之间的联系,这些分子改变包括糖酵解、缺氧、免疫细胞浸润等关键生物学途径。研究结果不仅验证了深度学习模型在预后评估中的准确性,还证实了这些模型的预后指标在不同临床病理亚组中的独立性和预测力。
01背景介绍
近年来,深度学习技术在基于全切片图像 (WSI) 的癌症预后和治疗效果预测方面取得了显著进展 。基于深度学习的预后模型在应用于各种恶性肿瘤时,其性能优于几乎所有其他传统方法,显示出其在个性化医疗中的巨大潜力。这些开创性研究还表明,深度学习方法可以提取与预后相关的关键病理特征,这些特征是形态学上的决定因素。本研究选择肝内胆管癌 (iCCA) 来建立一个实用的深度学习模型,用于预后预测和深入解释。使用来自 2 个癌症中心 4 个独立 iCCA 队列的病理图像,开发并验证了一个用于该恶性肿瘤的分步预后模型,该模型具有出色的准确性、泛化能力和稳健性。接下来,通过多种方法对建立的模型进行深入研究,生成了一个前所未有的分辨率和细节的人类可解释的特征库。最后,利用研究队列的多组学数据,探索了分子改变在形态学变化中的足迹。
02方法
1. 研究数据
本研究纳入了来自两个癌症中心的四个独立 iCCA 队列 (队列 T、V1、V2 和 FU-iCCA),共有 941 名患者。队列 T 和 V1 共包含 586 名 iCCA 患者,这些患者在 2004 年至 2015 年期间在复旦大学附属中山医院接受了手术切除。队列 T (作为训练队列) 由 373 名 iCCA 患者组成,其余 213 名患者被纳入队列 V1 作为内部验证。队列 V2 (作为外部验证队列) 由来自中山大学肿瘤医院的 168 名 iCCA 患者组成,他们在 1999 年至 2013 年期间接受了手术切除。FU-iCCA 队列是我们之前建立的,包含多组学数据,包括 187 名患者,这些患者在 2014 年至 2018 年期间在中山医院接受了手术切除。纳入标准: 所有患者均经病理证实为 iCCA,并接受了根治性切除术。排除标准: 患有肝门部或肝外胆管癌以及原发性肝癌混合型的患者被排除在外。治疗: 所有患者在手术前或随访期间均未接受任何分子靶向或免疫治疗。
2. 研究方法
研究人员开发了一种创新的预后神经网络,这种网络能够全面评估组织切片图像中的建筑结构和细微信息。这一方法通过整合多模态数据,使得研究团队能够深入研究模型之间的相互作用机制。他们进一步提取并可视化了与临床结果和分子变化紧密相关的形态学特征。这种方法不仅增强了对疾病发展和治疗反应的理解,还为个性化医疗提供了新的视角。通过这种方法,研究人员能够更准确地预测疾病的发展和患者的治疗反应,从而为临床决策提供支持。研究思路如下:
03结果
1. 分类网络准确区分解剖亚区域
iCCA 的病理切片通常包含 4 个主要的解剖亚区域,包括 TT、LT、HN 和 TLSs,这些区域可以相对容易地手动勾画出来。两名经验丰富的专家在 89 张 WSI 上描绘了四种组织类型的轮廓,并由另一位病理学家独立检查 (图 1A)。如方法中所述,这些 WSI 被分割成瓦片 (图 1B)。总共采样了 1,059,923 个带注释的瓦片,用于训练分类网络。对于注释为 TT 的 32,762 个瓦片,考虑到 iCCA 是一种高度硬化性癌症,我们进一步将它们标记为实质 (TT-p) 和间质 (TT-s) 以进行亚分类。经过充分训练后,将剩余的 6552 个标记瓦片用于测试分类网络的性能,使用混淆矩阵和曲线下面积 (AUC),所有这些都显示出极好的准确性和可分辨性 (图 1C, D)。分类结果的识别准确率在队列 T 中为 0.986,在队列 V1 中为 0.983,在队列 V2 中为 0.983。
图 1:分类网络和全局分割图
2. 从病理图像的独立维度中提取初始特征
研究人员开发了两种预后模型,以提高对肿瘤组织的全面评估。第一种模型,即“全局分割地图评分(GS)”,通过分析整个组织切片图像,为每个图像提供了预后风险评估(图2A)。在验证队列T中,该模型的C-指数达到了0.672,而在验证队列V1和V2中,C-指数分别为0.654和0.612(图2C)。这一结果表明,GS模型在不同患者群体中具有一致的预测能力,C-指数的值也显示出模型具有一定的预测准确性。第二种预后模型则专注于样本块,称为“样本块风险评分(TiRS)”。该模型通过优化采样方法和放大比例,精确识别出全切片图像中的32个肿瘤实质区域作为分析样本块(图2B)。在验证队列T中,TiRS模型的C-指数达到了0.715,而在验证队列V1和V2中,C-指数分别为0.674和0.641(图2D)。这表明TiRS模型在预测预后方面具有更高的准确性,尤其是在队列T中的表现更为出色。GS和TiRS作为独立预后指标,在统计上显示出显著的预后价值(P<0.01),这意味着它们在预测患者预后方面具有重要的作用。此外,这些模型在多个病例切片间的变化对预后结果有显著影响,这突出了肿瘤内部的异质性,即iCCA的肿瘤内异质性。这种异质性的存在为肿瘤的诊断和治疗带来了挑战,但同时也为开发更精确的预后模型提供了重要信息。
3. 整合预后模型稳健地预测患者预后
研究人员证实,全局分割地图(GSM)和采样瓦片对iCCA的预后预测至关重要。他们将这两种方法的特征整合到一个模型中,形成“共识风险评分(CRS)”。在训练队列T中,CRS的C指数达到0.745,优于单独使用GSM或采样瓦片(P<0.05)。CRS在内部和外部验证队列中展现了良好的泛化能力,无需调整或重新训练,直接应用于其他队列,C指数在队列V1和V2中分别为0.701和0.677。CRS作为预后指标,优于基于传统临床病理特征的Cox模型(图2D)。生存分析显示,高CRS患者的存活率显著低于低CRS患者。多变量分析表明,CRS的预后价值独立于传统临床病理特征,并且在不同的临床病理亚组中,CRS都是一个强有力的生存预测指标(图2E)。
图 2:不同条件下的预测性能评估
4. 预后模型 1 的解构揭示了重要的结构特征
研究显示,肿瘤内(intratumoral)和肿瘤周围(peritumoral)的TLS在功能和细胞组成上存在差异,其中肿瘤内TLS与良好预后相关,而瘤周TLS则与不良预后相关。研究发现,侵袭性边缘的形态特征与肿瘤出芽相关,后者是一个新的预后生物标志物,代表肿瘤侵袭性和上皮间质转化的标志。包括肿瘤实质与间质比率、播散性病灶和肿瘤邻近微血管等可视化特征,虽可被病理学家理解,但传统病理程序难以量化。通过计算结构参数,如面积比、TLS和HN分布方差、侵袭边缘光滑度等,发现瘤周TLS与LT面积比、HN和TT-s与TT面积比、HN分布方差和侵袭边缘不光滑度与不良预后相关,而肿瘤内TLS和TT-p与TT面积比及肿瘤内TLS分布方差与良好预后相关。但这些参数无法完全捕捉肿瘤区域的地理和拓扑复杂性,因此不能完全实现网络的预测能力。
图 3:结构特征的解构和可视化
5. 预后模型 2 捕获来自实质瓦片的内在形态特征
预后模型2专注于肿瘤的微观特征,并通过输入数据识别了病理学家能够解释的预后指标,如iCCA的亚型和肿瘤分级。iCCA根据WHO和ERCCN的分类,可以分为近肝门大导管亚型和周围小导管亚型,它们在粘液产生、肿瘤细胞形状和患者预后方面存在显著差异。小导管亚型的iCCA瓦片的TiRS值显著较低,与其良好的预后相符合(图4A)。同时,肿瘤的分化程度与TiRS值之间也存在关联(图4B)。此外,研究者利用CellProfiler分析了肿瘤细胞核的形态学特征,提取了可量化的形态向量,以解读模型的“黑箱”特性(图4C)。如图4D通过比较高TiRS和低TiRS患者的瓦片,发现肿瘤细胞核的面积、形状、强度和纹理是信息量最丰富的特征,并且与TiRS值和预后显著相关。LASSO回归分析显示,与TiRS最相关的测量指标包括细胞核大小的平均值、细胞核形状的三阶中心矩、细胞核边缘的积分强度和细胞核纹理的对比度(图4E)。这表明,高TiRS瓦片中的肿瘤细胞核表现出更大的尺寸和更扭曲的形状,而其核膜和纹理对比度则不太明显,反映了预后模型2捕捉到了具有预后意义的细粒度特征。
图 4:量化形态学分析揭示了细粒度特征
6. 预后模型反映了多组学水平上的肿瘤生物学过程
多组学数据关联表明,病理切片中的形态模式与患者的预后是由其分子表型决定的。通过分析FU-iCCA队列数据,研究人员发现TiRS与多种分子途径相关,包括糖酵解、缺氧、p53通路等,其中大多数通路与TiRS正相关,反映了它们在癌症中的不利作用。蛋白质组学数据也支持这些发现,显示了分子改变与肿瘤细胞形态的紧密联系(图5A)。免疫浸润分析显示,高TiRS患者的免疫微环境中T细胞、B细胞和NK细胞减少,而中性粒细胞增多,这与免疫表型在癌症中的复杂功能一致。形态学特征与通路评分的比较揭示了肿瘤细胞排列和扩散水平的差异,以及缺氧和mTORC1信号通路激活对肿瘤细胞形态的影响(图5B)。尽管大多数基因组改变如TP53、FGFR2和IDH1/2与TiRS无关,但KRAS突变与TiRS相关,表明单一突变在形态学上的影响有限。这些发现强调了多组学数据在理解肿瘤形态学和预后中的重要性(图5C)。
图 5:TiRS 与分子改变的相关性
04小编解读
本研究构建了几种用于胆管细胞癌(iCCA)预后预测的模型,并通过多组学数据分析揭示了肿瘤的多层面特征。研究者采用全切片图像(WSIs)进行病理评估,并运用深度学习技术来分析病理特征和预测疾病预后。其中,预后模型1依托于全局视角的组织结构图,而模型2则着眼于细胞级别的局部特征。这两个模型的数据被综合,形成共识风险评分(CRS),该评分在验证其作为独立预后指标的有效性后,还在不同的病理和临床亚组中展现了其预测价值。此外,研究还发现,样本块风险评分(TiRS)与多个分子途径有显著的相关性,这些途径包括糖酵解、缺氧反应、以及多种免疫细胞的存在。这些发现是通过分子组学分析和RNA测序数据得出的,从而证实了肿瘤的生物学特性与其病理形态特征之间的联系。研究结果强调了深度学习模型在病理诊断和预后评估中的潜力,以及多组学数据在揭示肿瘤复杂性中的重要性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。