“Multimodal Whole Slide Foundation Model for Pathology”提出了一种用于病理学的多模态全切片基础模型TITAN,通过在大量组织切片图像(WSIs)上的自监督学习和视觉语言对齐预训练,TITAN能生成强大的通用切片表示,在多种临床任务中表现优异,为病理学研究和临床诊断提供了有力工具。
1. **研究背景** - 计算病理学中基础模型发展迅速,但将基于组织病理图像感兴趣区域(ROI)的模型应用于患者和切片级临床挑战受限于疾病特异性队列数据不足,尤其是罕见病。 - 现有全切片基础模型存在缺陷,如多采用视觉单模态建模、样本量少致泛化能力受限、在诊断相关设置评估不足等。
2. **TITAN模型** - **数据**:使用335,645张WSIs和对应病理报告及423,122条合成字幕预训练,数据涵盖20种器官、不同染色方法及肿瘤和非肿瘤组织。 - **预训练阶段** - **阶段 1**:对WSIs中ROI裁剪区域进行视觉单模态自监督学习,采用iBOT框架和ALiBi位置编码等技术,解决长输入序列、多视图创建和位置编码选择问题。 - **阶段 2 和 3**:用对比学习将ROI与合成字幕、WSIs与病理报告对齐,增强模型语言能力,采用CoCa预训练策略及数据增强方法优化字幕和报告多样性。
3. **模型评估** - **区域和切片诊断能力提升**:在多种病理任务(如形态分型、分子分类、生存预测)上,TITAN及变体优于其他模型,随预训练数据增加性能提升,在少样本数据效率实验表现佳,消融实验揭示各设计选择(如位置编码、层数、预训练策略)对性能影响及模型优势。 - **语言对齐能力**:在零样本分类任务中,TITAN在多类和二分类任务上远超PRISM;报告生成任务中,其生成报告质量指标远超PRISM,体现良好语言理解与生成能力及视觉语言对齐优势。 - **检索能力**:在罕见癌症检索和交叉模态检索任务中,TITAN及变体在准确率和召回率上优于其他模型,能有效检索相似切片和报告,辅助临床诊断决策。
4. **研究结论与局限** - TITAN在多种临床任务表现卓越,证明将自监督学习从ROI提升到WSI层面的有效性及多模态学习在病理学的重要性,为临床应用提供强大工具,可减少误诊和观察者间差异。 - 模型存在不足,如预训练数据集规模小于部分模型、对大切片上下文捕捉可能不充分、临床报告预处理复杂,未来可通过增加数据、优化编码和改进报告处理解决。