LIDC-IDRI肺结节公开数据集下载指南
LIDC-IDRI (The Lung Image Database Consortium),该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。该数据是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期癌症检测。
针对该数据集有大量任务可以研究,具体也可参考paperswithcode网站
数据集具体介绍可见其他博客,本文不再赘述。本文主要详写LIDC-IDRI数据集如何下载。
linux服务器下载
对于深度学习玩家,直接将数据集下载到服务器上是最方便的。但是网络上目前关于这方面的资料较少,故写下这篇文章帮助同样在探索的朋友们。
由于照官网教程是需要sudo权限的,这里写一下非root账户如何下载(此处以ubuntu为例)
首先点击上图红框获得nbia-data-retriever-4.4.deb文件,上传至服务器后选好下载路径后执行
dpkg -i nbia-data-retriever-4.4.deb
顺利安装后会生成一个opt文件夹,其中就有所需的nbia-data-retriever
- NBIA Data Retriever安装好后,不要直接打开,先去获得manifest file(如果直接运行也会报错)。这个
manifest file
也就是下载清单,一个.tcia文件。该文件在官网链接可下载。
下载完成后上传至服务器即可。 - 此后安装照官网教程即可
对于没有linux桌面系统,通常采用命令行的小伙伴也不要着急。官网也贴心的准备了如何用命令行下载的教程Command-Line Interface Guide
教程非常详细,只不过很难发现,在此分享一下。
如果按上述顺利安装好NBIA Data Retriever后,执行
/opt/NBIADataRetriever/NBIADataRetriever --cli <location>/<manifest file name>.tcia -d <parent location>/<download directory> -v –f
–cli 后为.tcia文件的路径
-d 后为数据集要下载到的地址
即可顺利开始数据集的下载。
数据集有大约125G,全部下载大约需要9小时。