预测子宫内膜癌 (EC) 的远处复发对于个性化辅助治疗至关重要。目前病理和分子分析相结合的黄金标准成本高昂,阻碍了实施。在这里,我们开发了 HECTOR(基于组织病理学的子宫内膜癌定制结果风险),这是一种多模态深度学习预后模型,使用苏木精和伊红染色的全幻灯片图像和肿瘤分期作为输入,研究对象为来自八个 EC 队列(包括 PORTEC-1/-2/-3 随机试验)的 2,072 名患者。 HECTOR 在内部(n = 353)和两个外部(n = 160 和 n = 151)测试集中的 C 指数分别为 0.789、0.828 和 0.815,优于目前的黄金标准,并确定了结果明显不同的患者(通过 Kaplan-Meier 分析,HECTOR 低危、中危和高危组的 10 年无远处复发概率分别为 97.0%、77.7% 和 58.1%)。HECTOR 还比目前的方法更好地预测了辅助化疗的好处。形态学和基因组特征提取确定了 HECTOR 风险组的相关性,其中一些具有治疗潜力。HECTOR 改进了目前的黄金标准,可能有助于在 EC 中提供个性化治疗。
1. 目的
本文的研究目的是基于病理学和肿瘤分期多模态数据开发人工智能预测模型,降低远处复发预测成本。
2. 数据
本文共纳入 2,072 个Case:584 个来自 PORTEC-1,395 个来自 PORTEC-2,217 个来自 PORTEC-3,67 个来自 TransPORTEC ,226 个来自 MST ,272 个来自丹麦队列,160 个来自 UMCG 队列,151 个来自 LUMC 。其中使用一个内部测试集和两个外部测试集。内部测试集是通过随机抽样 20% 的监督训练集获得的,按离散时间间隔和审查状态分层,以确保跨时间存在足够多的事件。最后,剩下的 1,408 个 WSI 用于 HECTOR 的监督训练。
3. 方法
本文方法(即HECTOR)是一个两步式深度学习模型,其中第一步包括病理图像表征学习模型,第二步包括远处复发预测模型,具体流程图如下图所示,从图中看来在子图a中,首先从H&E WSI 中分割出的组织,随后以180 μm 的放大系数切成256×256大小的块。使用自监督学习训练多级视觉Transformer,通过从 1,862 名患者的 WSI 中随机抽样Patch,排除内部和外部测试集的任何患者。从最后八个转换器块中提取补丁级特征。在第二步HECTOR 将 H&E WSI特征 和解剖阶段 I-III 类别作为输入。提取的补丁级特征在空间和语义上是平均的。补丁特征被传递到基于注意力的多实例学习模型和 im4MEC DL 模型(所有层均冻结)中,该模型将 H&E WSI 中的分子类别预测为 imPOLEmut、imMMRd、imNSMP 或 imp53abn。解剖阶段类别和基于图像的分子类别都通过嵌入层输入。对得到的三个嵌入,应用基于门控的注意力,使用 Kronecker 积进行融合。使用 对数似然损失)预测离散时间内的远距离无复发概率函数。
4. 结果
本文的模型其实相对简单,并且所谓的多模态也只是引入了一个分期信息,主要还是基于病理图像建模,但本文的亮点是在结果分析。本文的模型结果对比分析从各个角度呈现出了模型的优势。
4.1 与金标准对比
本文首先进行的就是与当前子宫内膜癌的金标准对比,如图子图a所示,从结果可知HECTOR 模型的鉴别能力优于使用相同输入的基本 CPH 模型加解剖分期 ,并且优于或与需要测序、免疫组织化学 (IHC) 和专家病理学的基本 CPH 模型加解剖分期和分子 EC 分类 基本相当。此外还比较了 HECTOR 预后值与当前临床病理学和分子风险因素,使用 HECTOR 连续风险评分作为独立变量。 HECTOR 在多变量模型中保留了预后价值,其中已知风险因素组合作为一个风险评分(称为 CLINICAL 风险评分)不具有预后价值如下图子图b所示。
4.2 多个WSI对比
本文还做了一个比较少见的实验,就是比较单个WSI和多个WSI图像的预测效能。在一般的文章中我们只见过呈现一个WSI结果的。在本文中利用LUMC 队列中的大多数病例每个患者都有来自不同组织块的多个包含肿瘤的 H&E WSI。实验表明通过添加更多 WSI(将每个患者的 HECTOR 风险评分作为 WSI 的平均或中位数),HECTOR 性能和风险分层略有改善,对比如下图所示:
4.3 与预后因素和输入贡献的关联
本文还通过模型的预测结果来反过来分析预后因素也是比较有意思的思路。通过多元线性回归对内部测试集进行初步分析(子图a、b),结果显示较低的 HECTOR 风险评分与子宫内膜样 (EEC) 组织学亚型、1 级和 POLEmut EC 的已知有利风险因素相关,而较高的 HECTOR 风险评分与不利因素相关,包括非 EEC 组织学亚型、3 级、FIGO III 期、LVSI、p53abn EC、雌激素受体阴性和 L1 细胞粘附分子)。MMRd EC、2 级和 FIGO 2009 II 期分布在整个风险评分轴上,且无统计学意义。具体结果如下所示:
4.4 结果风险的形态相关性
为了确定 HECTOR 可能使用的预后形态学特征,提取了对风险评分影响最大的 H&E WSI 的前 5% 区域(降低和增加),并由内部测试集中的专家妇科病理学家进行了喝茶(子图a )。在 HECTOR 低风险组中,降低风险评分的形态学特征被确定为光滑的管腔边界、发炎的基质和上皮内淋巴细胞、上皮内中性粒细胞和丰富致密的正常无肿瘤子宫肌层。在 HECTOR 高风险组中增加风险评分的形态学特征是粗糙的管腔肿瘤表面(也称为钉状物)、LVSI、具有明显核异形性的实体瘤生长、促纤维化基质反应和有丝分裂图的存在(子图a)。在一般的病理图像模型中,大都到找到Biomarker这一步就结束了,但是本文还做了额外的形态学分析,并且提取5%Patch区域的方法,对我们以后定位Biomarker提供了启示。
4.5 基因组突变、免疫和转录特征
与风险相关同样的实录,本文还进一步结合模型的预测结果分析了基因突变、免疫和转录特征。本文为了分析了 TCGA-UCEC(n = 381 FIGO,I-III 期 EC)数据集(如下图a所示)。通过分析转录数据,表明,HECTOR 评分的增加与记忆 B 细胞(P = 0.008)、活化树突状细胞(P <0.001)和静息肥大细胞(P = 0.029)呈正相关,与 CD8 + T 细胞(P <0.001)、滤泡辅助 T 细胞(P <0.001)、调节性 T 细胞(P <0.001)和自然杀伤 (NK) 细胞活化(P = 0.049)呈负相关。
4.6 HECTOR 辅助化疗反应预测
本文还进一步的验证了HECTOR 是否可以预测化疗对远处复发风险的益处。结果如下图所示,分析结果表明预测准确性高于目前用于识别可能受益于辅助化疗的高危肿瘤患者的预后因素,包括浆液性组织学亚型、FIGO 2009 III 期和 p53abn 分子类(图 6b)。HECTOR 表现出显著的预测效用,可能超过当前方法所提供的效用。
5. 讨论
本文论文的标题所谓的多模态其实是个噱头,主要还是通过病理信息,其他的分期信息只是做了一个One-hot编码集成到模型中。但是本文的结果分析做的十分漂亮,其中多个WSI性能的比较,marker的形态学分析、基因富集分析,这些分析结果都做的十分漂亮。虽说这一点我觉得逻辑不是特别严谨,但放在论文中确实让人显得工作扎实丰富了,这可能也是这篇文章能发Nature Medicine的原因吧。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。