肺部肿瘤检测数据集汇总

1.Lung Nodule Analysis 2016(LUNA16):

LUNA16 - Home​luna16.grand-challenge.org/Home/

肺部肿瘤检测最常用的数据集之一,包含888个CT图像,1084个肿瘤,图像质量和肿瘤大小的范围比较理想。每一张CT图像size不同(z * x * y,x y z 分别为行 列 切片数,譬如272x512x512为512x512大小切片,一共272张。比较好理解,肺部是3维立体的,所以以z轴每隔一定步长(spacing)扫描一次,就得到这样的数据)。每个CT有不同的肿瘤数,annotation标注为x,y,z,size,x,y,z定位肿瘤中心位置,size代表肿瘤的大小。

数据分为10个subsets,subset包含89/88个CT scan,文件的类型Metal image format,为比较好处理的 .mhd和raw文件,可以用 SimpleITK 包来读取,LUNA16提供的tutorial链接为:https://luna16.grand-challenge.org/Tutorial/,包括坐标转换以及可视化实现。

值得一提的是,LUNA16的CT图像取自LIDC/IDRI数据集,选取了三个以上放射科医师意见一致的annotation,并且去掉了小于3mm的肿瘤,所以数据集里不含有小于3mm的肿瘤,便于训练,小于3mm的肿瘤,即使是专业的医生都很难辨别。

2.LIDC-IDRI

Cancer Imaging Archive Wiki​wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI​编辑

由National Cancer Institute支持收集,LUNA16的母本,可以得到LUNA16原DICOM文件以及对应的xml标注文件。数据集包括CT,DX,CR文件类型,1010例病人,1018个CT图,具体标注的文件如下图示,其中包括位置和分割标注,肿瘤大小,病人为单位的肿瘤数,以及病人的诊断报告。

以下链接为数据集较为具体的标注文件,下载List3,其中包括从Case1 到Case1012,一共2636个肿瘤的位置和大小信息。

Computer Vision and Image Analysis Group​www.via.cornell.edu/lidc/


3. LungCT-Diagnosis:

收集自Moffitt Cancer Center,一共有61位患者对应61个CT scan,以及61个肿瘤,标注包括肿瘤 x, y, z 轴的信息,但是没有size大小。其他的标注包括患者clinical数据,存活时间等。

Cancer Imaging Archive Wiki​wiki.cancerimagingarchive.net/display/Public/LungCT-Diagnosis


4. Lung CT Segmentation Challenge 2017

https://wiki.cancerimagingarchive.net/display/Public/Lung+CT+Segmentation+Challenge+2017​wiki.cancerimagingarchive.net/display/Public/Lung+CT+Segmentation+Challenge+2017

来自AAPM 2017 Annual Meeting的数据集,用于分割的挑战赛,一共有60位患者对应96个CT,有人工标注的轮廓信息,training testing的data在detailed descriptions部分。


5. NSCLC(Non-Small Cell Lung Cancer) Radiogenomics

Cancer Imaging Archive Wiki​wiki.cancerimagingarchive.net/display/Public/NSCLC+Radiogenomics​编辑

来自斯坦福。该数据集有221个患者信息,1355个CT,有clinic信息,最新2018年的AIM file有有肿瘤annotation的位置。


6. QIN LUNG CT

Cancer Imaging Archive Wiki​wiki.cancerimagingarchive.net/display/Public/QIN+LUNG+CT#e8448e03bb9040fcae63c806d399ce98

数据集有47位患者信息对应47个CT,标注信息包括部分肿瘤在左右两肺的位置。


7. TCGA-LUSC(The Cancer Genome AtlasLung Squamous Cell Carcinoma)

Cancer Imaging Archive Wiki​wiki.cancerimagingarchive.net/display/Public/TCGA-LUSC

数据集有37位患者对应279个CT,带有clinic信息。


8. SPIE-AAPM Lung CT Challenge

Cancer Imaging Archive Wiki​wiki.cancerimagingarchive.net/display/Public/SPIE-AAPM+Lung+CT+Challenge#534f52ab0e4d4bd8b2e7ef16d2b2bd0d​编辑

数据集来自2015 SPIE Medical Imaging Conference,收集于AAPM,NCI。一共70位患者对应70CT,有肿瘤xyz位置,以及肿瘤diagnosis(Benign nodule/cancer)。


Cancer Imaging Archive数据集下载需要利用TCIA Download Manager,详细介绍:

Cancer Imaging Archive Wiki​wiki.cancerimagingarchive.net/display/NBIA/Download+Manager+6.5​编辑

9. The National Lung Screening Trial (NLST) 数据集

国家肺筛查试验(NLST)是一项随机对照试验,目的是确定与胸片筛查相比,用低剂量螺旋CT筛查肺癌是否能降低高危人群肺癌的死亡率。

15个子数据库,具体可查: https://biometry.nci.nih.gov/cdas/datasets/nlst/

优点:数据集全面。这些数据包括参与者特征、筛查考试结果、诊断程序、肺癌和死亡率。超过75,000的CT图像,对于基于DL的我们简直是巨大福利。另外有超过1200张来自NLST肺癌患者的病理图像,但只供查看。

需要:申请!写一个简单的proposal即可,通过了以后签个字等approve,数据集的下载链接就开放了,如下图。申请链接:https://biometry.nci.nih.gov/cd

引自肺部肿瘤检测数据集汇总(新更 2/20/20) - 知乎 (zhihu.com)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值