【医学影像】LIDC-IDRI数据集的无痛制作

0.下载

0.0 链接汇总

  • LIDC-IDRI官方网址:https://www.cancerimagingarchive.net/nbia-search/?CollectionCriteria=LIDC-IDRI
  • NBIA Data Retriever 下载链接:https://wiki.cancerimagingarchive.net/display/NBIA/Downloading+TCIA+Images

0.1 步骤

  1. 检索
    分成两种,Simple Search一个是多种关键字筛选,鉴定为没用。
    在这里插入图片描述
    直接用Text Search ,将annotation的ID输上,点击search
    在这里插入图片描述
  2. 加入Cart
    检索出来会有好几种模态/任务的数据,选择自己需要点击购物车加入Cart。
    例如:我是做CT分割,故只选择模态为CT的那个数据。
    在这里插入图片描述
    重复Text检索步骤,得到最终自己需要的所有Cart:
    在这里插入图片描述
  3. 下载
  • 安装好NBIA Data Retriever
    前面链接下载,或者Download->Get NBIA Data Retriever 下载,有官方指引。
    在这里插入图片描述

  • 生成manifest文件
    在这里插入图片描述

  • 下载

设置好路径,点击start
在这里插入图片描述

1.合成CT图

这边是直接偷了NaviAirwayi的代码进行dicom文件merge成nii文件。
文件结构需要为:
在这里插入图片描述

如果按照之前步骤进行下载的话,获得的文件就是上述结构。只是子文件名称会因为太长而被修改,不过不影响结果,最终生成文件名是按照一级目录命名。
在这里插入图片描述

预处理代码完整如下:

import numpy as np
import os
import SimpleITK as sitk
from PIL import Image
import pydicom
import cv2
import nibabel as nib
import pydicom

## funtion
#####-----------------------------------------------------------------------

def loadFile(filename):
    ds = sitk.ReadImage(filename)
    #pydicom.dcmread(filename)
    img_array = sitk.GetArrayFromImage(ds)
    frame_num, width, height = img_array.shape
    #print("frame_num, width, height: "+str((frame_num, width, height)))
    return img_array, frame_num, width, height

'''
def loadFileInformation(filename):
    information = {}
    ds = pydicom.read_file(filename)
    information['PatientID'] = ds.PatientID
    information['PatientName'] = ds.PatientName
    information['PatientSex'] = ds.PatientSex
    information['StudyID'] = ds.StudyID
    information['StudyDate'] = ds.StudyDate
    information['StudyTime'] = ds.StudyTime
    information['Manufacturer'] = ds.Manufacturer
    return information
'''

def get_3d_img_for_one_case(img_path_list, img_format="dcm"):
    img_3d=[]
    for idx, img_path in enumerate(img_path_list):
        print("progress: "+str(idx/len(img_path_list))+"; "+str(img_path), end="\r")
        img_slice, frame_num, _, _ = loadFile(img_path)
        assert frame_num==1
        img_3d.append(img_slice)
    img_3d=np.array(img_3d)
    return img_3d.reshape(img_3d.shape[0], img_3d.shape[2], img_3d.shape[3])
#####-----------------------------------------------------------------------

# the path to LIDC-IDRI raw images

LIDC_IDRI_raw_path = "G:\BAS_test_raw\manifest-1708937949454\LIDC-IDRI"

LIDC_IDRI_raw_img_dict = {}
img_names = os.listdir(LIDC_IDRI_raw_path)
img_names.sort()
img_names

path_to_a_case = ""


def find_imgs(input_path):
    global path_to_a_case
    items = os.listdir(input_path)
    items.sort()
    # print("There are "+str(items)+" in "+str(input_path))
    All_file_flag = True
    for item in items:
        if os.path.isdir(input_path + "/" + item):
            All_file_flag = False
            break
    if All_file_flag and len(items) > 10:
        # print("we get "+str(input_path))
        path_to_a_case = input_path
    else:
        for item in items:
            if os.path.isdir(input_path + "/" + item):
                # print("open filefloder: "+str(input_path+"/"+item))
                find_imgs(input_path + "/" + item)


for idx, img_name in enumerate(img_names):
    print(idx / len(img_names), end="\r")
    find_imgs(LIDC_IDRI_raw_path + "/" + img_name)
    slice_names = os.listdir(path_to_a_case)
    slice_names.sort()
    LIDC_IDRI_raw_img_dict[img_name] = []
    for slice_name in slice_names:
        if slice_name.split(".")[1] == "dcm":
            LIDC_IDRI_raw_img_dict[img_name].append(path_to_a_case + "/" + slice_name)

print("Show the case names: "+str(LIDC_IDRI_raw_img_dict.keys()))


# set output path

output_image_path = r"G:\myBAS\test\images"
if not os.path.exists(output_image_path):
    os.mkdir(output_image_path)

for case in LIDC_IDRI_raw_img_dict.keys():
    img_3d = get_3d_img_for_one_case(LIDC_IDRI_raw_img_dict[case])
    sitk.WriteImage(sitk.GetImageFromArray(img_3d),
                    output_image_path + "/" + case + ".nii.gz")

今天折腾了半死,希望对大家有帮助。

reference

refer1

  • 6
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
LIDC-IDRI数据集是一个广泛使用的医学影像数据集,主要用于肺部CT图像分析和肺部肿瘤识别。该数据集由美国国立卫生研究院(NIH)赞助,共包含1010个患者的肺部CT图像。 LIDC-IDRI数据集的主要目的是为医学影像研究人员和机器学习算法提供一个标准的评估平台。数据集中的图像经过专业的放射科医生标注,具有丰富的信息,其中包括肺结节的位置、大小、形状、密度等。 该数据集提供了一定数量的肺结节的真实标注,这使得研究人员能够针对肺癌等疾病进行更准确的诊断和治疗。此外,LIDC-IDRI数据集还提供了一些额外的临床数据,例如患者的年龄、性别、吸烟史等,这些信息有助于进一步分析肺癌与患者的相关因素之间的关系。 由于LIDC-IDRI数据集的规模大且有丰富的标注信息,它被广泛应用于肺部肿瘤的自动检测和识别算法的开发。研究人员可以基于该数据集开展机器学习和深度学习的算法研究,以提高肺癌的早期检测和精准治疗。 LIDC-IDRI数据集的应用不仅仅限于医学领域,还可以扩展到计算机视觉和人工智能等领域。通过结合医学影像数据和先进的算法,可以开发出更准确和高效的肺部肿瘤诊断工具,为患者提供更好的医疗服务。 总之,LIDC-IDRI数据集是一个重要的肺部CT图像数据集,为医学影像分析及肺癌诊断研究提供了宝贵的资源。通过利用这个数据集,研究人员可以开展各种肺部肿瘤相关的研究,为肺癌患者的治疗和管理提供更好的支持。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周树皮不皮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值