实用：用深度学习方法修复医学图像数据集

最新推荐文章于 2024-08-07 11:19:33 发布

云栖精选

最新推荐文章于 2024-08-07 11:19:33 发布

阅读量449

点赞数

分类专栏：开发环境

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yunqishequ1/article/details/80224668

版权

本文介绍了如何使用深度学习技术来修复和清理医学图像数据集中的问题，如旋转、翻转和异常图像。通过创建和训练简单的深度学习模型，可以高效地识别并修复这些问题，大大减轻了手动处理大量数据的负担。作者展示了在CXR14数据集上的应用实例，强调了深度学习在解决此类简单任务上的有效性。

摘要由CSDN通过智能技术生成

在医学成像中，数据存储档案是基于临床假设的。不幸的是，这意味着当你想要提取一个图像时，比如一个正面的胸部x光片，你通常会获得一个存储了许多其他图像的文件夹，并且没有简单的方法来对它们加以区分。

图1：这些图片来自于相同的文件夹是有道理的，因为在放射学中我们记录的是病例而非图像。这是病人受伤后，同时扫描的所有身体部位。

根据机构的不同，你可能会得到水平或垂直翻转的图像。它们可能包含反向像素值。他们可能会旋转。问题是，当处理一个巨大的数据集，比如5万到十万个图像时，你怎么能在没有医生指导的情况下发现这些畸变呢？

您可以尝试编写一些优雅的解决方案，比如：因为大多数胸部X光高度都比宽度高，因此在X光的两侧有黑色的边界，所以如果底部有超过50个黑色的像素行，那么它可能旋转了90度。

但和往常一样，我们的经验失败了。

图2：这里只有中间的图像有经典的“黑色边框”

这些脆弱的规则不能解决上述问题。

进入software 2.0，我们使用机器学习来构建我们无法自行编码的解决方案。像旋转的图像这样的问题是embarrassingly learnable。这意味着机器可以像人类一样完美地实现这些任务。

因此，显而易见的解决办法是使用深度学习来为我们修复数据集。在这篇文章中，我将向您展示这些技术的可应用领域，如何用最少的努力做到这一点，并展示一些使用方法的示例。举个例子，我将使用Wang等人开发的CXR14数据集，它看起来是经过精心策划的，但有时仍然包含一些糟糕的图片。如果你使用CXR14数据集，我们甚至可以给你包含430个新标签的数据集，这样你就不用担心那些糟糕的图片了！

如此尴尬的问题

我们真正需要问的第一个问题是现在的问题是embarrassingly learnable么？

考虑到大多数的研究都是正常的，你需要一个非常高的精确度来防止排除那些“好“的研究。我们应该瞄准99.9%的目标。

很酷的一点是，对于视觉上可以识别的问题，它很简单，我们也可以很好地解决。一个很好的问题是“你能想象一个单一的视觉规则来解决这个问题吗？”“ImageNet数据集的主要目的就是区分区分狗和猫，而解决办法也肯定不是这样。

有太多的变化，有太多的相似之处。我经常在演讲中使用这个例子：我甚至无法想象如何编写规则来直观地区分这两种类型的动物。这并不是令人embarrassingly learnable。

但在医学数据中，许多问题其实很简单。因为医学图像的变化是很小的。解剖学、角度、光线、距离和背景都很稳定。为了说明这一点，让我们看一个来自CXR14的简单示例。在数据集中的普通胸部x光中，有一些是旋转的（这在标签中没有被识别，所以我们不知道是哪一个）。它们可以旋转90度左右，或180度的上下颠倒。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。