LUNA16数据集

西_西_

已于 2024-06-11 09:39:16 修改

阅读量2.1k

点赞数 21

分类专栏：医学图像处理文章标签： python

于 2023-12-07 10:55:14 首次发布

本文链接：https://blog.csdn.net/weixin_47414581/article/details/134849583

版权

医学图像处理专栏收录该内容

8 篇文章

订阅专栏

LUNA16，全称Lung Nodule Analysis 16，是16年推出的一个肺部结节检测数据集，旨在作为评估各种CAD（computer aid detection计算机辅助检测系统）的banchmark。

官方地址：https://luna16.grand-challenge.org

该数据集还有一个官方论文，Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the LUNA16 challenge，本篇博客中主要内容也取于本论文。

论文地址：https://arxiv.org/abs/1612.08012

一数据

LUNA16的数据来源于一个更大的数据集LIDC-IDRI，该数据集共有1018个CT扫描，也就是1018个病例，每个CT图像都有xml格式的标签文件，这个数据集的数据来源于7家不同的学术机构，所采用的扫描器及其相关参数都不尽相同，所以，1018个图像可以说分布不均，用论文中的话来说就是very heterogeneous（非常异构）。

LUNA16数据集将切片厚度（slice thickness)大于3mm的CT去除，同时将切片space不一致以及缺失部分切片的CT也去除，最后产生了888张CT，以.mhd格式存储。

在LIDC-IDRI数据集中，有三种区域会标注出来，直径>3mm的结节，直径<3mm的结节以及非结节（但是肺部畸变区域），回到LUNA16，在888张CT中，共有36378个结节被标出（LIDC-IDRI标注的），在LUNA16中，只有直径>3mm的结节作为样本，直径<3mm的结节和非结节都不纳入进来，而直径<3mm的结节有11509个，非结节区域有19004个，这样还剩下36378-11509-19004=5765个，针对这5765个结节区域，若两个结节离的太近（此处太近的定义为中心距离小于半径之和，也就是相交了），则对两个结节进行合并，合并的中心和半径是该两个结节的均值，经过这样处理，还剩下2290个结节。由于标注的时候是四位专家一起标注，有些结节只有一位专家标注，有些有两位，最好的情况是四位都标注了，根据这个规则，分别有2290，1602，1186，777个结节由至少1，2，3，4位专家标注，LUNA16选取至少由三位专家标注的1186个结节作为最后要检测的区域，也就是我们做实验时下载的数据。

总结一下，数据筛选流程

（1）将直径>3mm的结节筛选出来，其它的不用，此时还有5765个结节

（2）将相近的结节融合，融合后还有2290个结节

（3）将三个以上专家标注的结节作为检测使用，共有1186个结节，也就是最后的实验数据。

（4）补充一点，不用的结节不是真的不用，2290-1186=1104个只有一位专家标注的结节，以及11509个直径<3mm的结节和19004个非结节合在一起作为irrelevant findings，这些区域，既不作为正样本也不作为负样本，所以如果你的算法检测出这些区域，不会处理为false positive，当然更不是true positive，直接无视之。

LUNA16共有10个子文件夹，subset0~subset9，这是为了做10折交叉验证，每个文件夹里都是病例，每个病例对应两个文件，文件名相同，后缀不同，其中.mhd文件存储着ct的基本信息，.raw文件存储着实际的ct数据，可以看到，ct文件还是挺大的，LUNA16足足一百多G，下载起来也挺耗时的。