实用:用深度学习方法修复医学图像数据集

医学成像中,数据存储档案是基于临床假设的。不幸的是,这意味着当你想要提取一个图像时,比如一个正面的胸部x光片,你通常会获得一个存储了许多其他图像的文件夹,并且没有简单的方法来对它们加以区分。

42f695f408cfb14ad86612e8c7034cf348ecde8c

图1:这些图片来自于相同的文件夹是有道理的,因为在放射学中我们记录的是病例而非图像。这是病人受伤后,同时扫描的所有身体部位。

根据机构的不同,你可能会得到水平或垂直翻转的图像。它们可能包含反向像素值。他们可能会旋转。问题是,当处理一个巨大的数据集,比如5万到十万个图像时,你怎么能在没有医生指导的情况下发现这些畸变呢?

您可以尝试编写一些优雅的解决方案,比如:因为大多数胸部X光高度都比宽度高,因此在X光的两侧有黑色的边界,所以如果底部有超过50个黑色的像素行,那么它可能旋转了90度。

但和往常一样,我们的经验失败了。

4d0f46c34876759f54375b622fa5db747b46ca96

图2:这里只有中间的图像有经典的“黑色边框”

这些脆弱的规则不能解决上述问题。

进入software 2.0,我们使用机器学习来构建我们无法自行编码的解决方案。像旋转的图像这样的问题是embarrassingly learnable。这意味着机器可以像人类一样完美地实现这些任务。

因此,显而易见的解决办法是使用深度学习来为我们修复数据集。在这篇文章中,我将向您展示这些技术的可应用领域,如何用最少的努力做到这一点,并展示一些使用方法的示例。举个例子,我将使用Wang等人开发的CXR14数据集,它看起来是经过精心策划的,但有时仍然包含一些糟糕的图片。如果你使用CXR14数据集,我们甚至可以给你包含430个新标签的数据集,这样你就不用担心那些糟糕的图片了!

如此尴尬的问题

我们真正需要问的第一个问题是现在的问题是embarrassingly learnable么?

考虑到大多数的研究都是正常的,你需要一个非常高的精确度来防止排除那些“好“的研究。我们应该瞄准99.9%的目标。

很酷的一点是,对于视觉上可以识别的问题,它很简单,我们也可以很好地解决。一个很好的问题是“你能想象一个单一的视觉规则来解决这个问题吗?”“ImageNet数据集的主要目的就是区分区分狗和猫,而解决办法也肯定不是这样。

有太多的变化,有太多的相似之处。我经常在演讲中使用这个例子:我甚至无法想象如何编写规则来直观地区分这两种类型的动物。这并不是令人embarrassingly learnable。

但在医学数据中,许多问题其实很简单。因为医学图像的变化是很小的。解剖学、角度、光线、距离和背景都很稳定。为了说明这一点,让我们看一个来自CXR14的简单示例。在数据集中的普通胸部x光中,有一些是旋转的(这在标签中没有被识别,所以我们不知道是哪一个)。它们可以旋转90度左右,或180度的上下颠倒。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值