作者简介: 本文作者系大学统计学专业教师,多年从事统计学的教学科研工作,在随机过程、统计推 断、机器学习领域有深厚的理论积累与应用实践。个人主页
1. 问题描述
迄今为止,中风仍然是世界第二大致死的疾病。在美国,每年约有70万人经历由血凝块阻塞大脑动脉引起的局部缺血性中风。约有23%的中风患者治疗后复发,而第二次中风恶化了患者的生存机会。近十年来,机械血栓清除术已经成为治疗阻塞引起的缺血性中风的标准治疗手段。因此,医疗专家尝试建立数理模型预测缺血性脑中风病原与血凝块来源。本研究使用数字病理切片图像,建立数学模型,分类两种主要的急性缺血性脑中风亚型:脑栓塞与脑血栓。
2. 数据介绍
本研究的数据集由1000张高分辨率的完整数字病理切片图像组成。每张TIFF格式的图像是一个中风患者的血凝块扫描结果。我们将使用这些图像分类患者中风的类型为CE
(Cardioembolic) or LAA
(Large Artery Atherosclerosis). 根据分类任务,将图像数据集进一步分为训练集与检验集。
3. 数据探索
3.1 训练集与检验集
- 训练集
- 检验集
- 其它数据集
- 样本数
3.2 数据统计图
- 多张图像的患者统计
- 标签统计
- 训练集图像大小统计
- 示例图像
patient id = 09644e (CE)
patient id = 91b9d3 (LAA)
4. 分类模型
4.1 建立数据模型
import shutil
!mkdir -p /kaggle/temp/images/CE
!mkdir -p /kaggle/temp/images/LAA
for _, row in df_train.iterrows(