【翻】CNN-Based Pill Image Recognition for Retrieval Systems

0 Abstract

药物应按照处方指示进行服用,误差幅度应尽量减小甚至降至零,否则后果可能是致命的。由于配备摄像头的移动设备的普及,患者和医生可以轻松地拍摄未识别的药丸照片,以避免错误的处方或用药。这一研究领域属于信息检索的范畴,更具体地说是图像检索或识别。已经进行了多项研究,以提出准确的模型,即准确匹配输入图像与存储图像。最近,神经网络已被证明在识别数字图像方面非常有效。本研究旨在通过图像分割和分类来提高图像检索的准确性和效率。**本文提出了三种神经网络(CNN)架构:两个混合网络与分类方法配对(CNN+SVM和CNN+kNN)以及一个ResNet-50网络。**我们使用选定的数据集上的多种检测技术进行各种预处理步骤。我们在从国家医学图书馆数据库获取的实际数据集上进行了广泛的实验。结果表明,我们提出的模型能够实现90.8%的准确性。我们还将上述三种模型与一些现有方法进行了比较,我们发现我们提出的CNN+kNN架构相对于现有模型改善了药丸图像检索的准确性,提高了10%。

1. Introduction

信息检索描述了从存储系统中获取信息的过程。检索到的信息可以是文本、图像、声音或描述数据库或数据的元数据格式。一个有趣的领域是从图像中进行信息检索,其中使用自动化工具来识别图像中的对象。在当今这个时代,人们对智能手机的依赖增加,使得从手机照片中检索信息成为一个不断发展的研究领域 [1]。
传统上,元数据,如关键词、标题或图像标题,有助于信息检索。然而,这种手动方法消耗时间、精力和成本。随着在线活动的增加,包括社交网络应用,**基于内容的信息检索(Content-Based Information Retrieval,CBIR)**的研究在信息检索领域变得突出。CBIR是描述自动图像检索技术的领域,它能够根据图像中嵌入的“内容”,如形状、纹理和颜色等特征,来识别图像 [2–4]。研究仍在进行中,以改善CBIR在提取基本特征(颜色和形状)和创建抽象模型以识别相关性水平方面的有效性。图像检索技术的进展为在多个领域中的应用打开了道路,包括医学、执法和工程领域。自动药丸图像识别仍然是医学领域CBIR的重要应用之一。

考虑到药物的重要性,几乎没有任何错误的余地,例如误诊或服用错误类型的药物。然而,在医护人员开处方、发药或给药的过程中,错误的可能性很高。Makary和Daniel [5] 认为,医疗错误在美国住院病人死亡的主要原因中排名第三。世界卫生组织(WHO)的统计数据显示,每年大约有130万患者因美国的可预防药物错误而死亡,这相当于每天至少有一人死亡。此外,WHO也承认医疗错误是造成伤害和可避免危害的主要原因之一 [6]。不良药物反应(ADE)也可能导致严重疾病,包括史蒂文斯-约翰逊综合症和帕金森病 [7]。WHO的统计数据显示,全球每10名患者中就有4名因医护人员的错误而受到伤害 [8],Larios Delgado等人 [9] 报告称,39%的病例严重到足以伤害患者。

这强调了减少药物错误的紧迫性,以保护患者的生命和健康。图像识别技术和信息检索在这方面可以发挥重要的作用,帮助识别和验证药物以减少医疗错误的风险。

消费者经常发现很难辨认药丸;因此,他们面临着误服错误药物、剂量不足或过量的风险。当药丸被移至不同的包装容器、组合到一个容器中,或者放入药盒以便于管理时,误辨认药丸的风险更加突出。此外,药物错误的财务影响令人担忧:加拿大预算的1/7和全球总健康支出的约1%(420亿美元)都用于减轻药物错误的影响 [8]。

为了确保安全用药,每颗药丸都具有独特的外观,通过大小、颜色、形状和印记的独特组合来区分 [10]。因此,卫生从业者可以将未识别的药丸与处方药物数据库进行交叉参考。药剂师通常在患者进行药物袋咨询时帮助他们辨认他们携带的药物。手动搜索可能会繁琐、耗时且令人疲倦,尤其是当涉及具有大量通用变种的药丸时。此外,阅读小药丸上的微小标记很容易引入人为错误。或者,自动化的药丸识别技术可以帮助快速识别药丸,减少药丸误辨认的可能性,并向患者提供视觉保证。此类自动化的示例包括RxList Pill Identification Tool [11] 和Healthline Pill Identifier [12],它们是提供药丸识别服务的基于网络的应用程序。

从图像中识别药丸的概念已经被研究,尤其是使用深度神经网络,取得了令人鼓舞的结果。然而,与这些研究不同,我们提出的方法不仅使用神经网络,还结合了非参数分类器,即k-最近邻算法(k-NN)[13,14]。k-NN分类器在开发任意决策区域方面非常有效,可以在多项式时间内完成。此外,k-NN可以获得比通常在通用卷积神经网络的预测层中使用的映射技术更为复杂的决策边界。我们总结我们的工作贡献如下:

  1. 我们研究了图像检索的具有挑战性的问题,具体针对药丸图像。

  2. 我们基于深度学习和k-最近邻(k-NN)分类器开发了一个高效的图像检索系统。

  3. 我们使用了一组真实生活中的药丸图像数据集,以评估所提出的系统的准确性和运行时间,并将结果与文献中相关的图像检索系统进行了比较。

  4. 我们提出的模型提高了从图像中识别药丸的准确性,同时保持了与可比较方法相同的运行时间,提高了10%。

本文的结构如下。第2节综述了已经进行的与信息检索和特别是从图像中识别信息有关的相关工作。第3节讨论了提出的方法和架构。实验设置和结果在第4节详细描述。第5节对结果进行了讨论和比较。最后,第6节总结了全文。

2. RelatedWork

多年来,研究人员已经进行了大量工作,以改善从存储数据中检索信息。文献中包含了各种模型,这些模型在这一研究领域中做出了重大贡献。在这一节中,我们将对信息检索领域中一些最显著的模型和方法进行调查,首先简要回顾历史,然后关注药丸图像识别领域的工作。

概率信息检索和加权索引是由Maron和Kuhns [15]在20世纪60年代引入的。[16] 的作者提出使用一种树状结构,称为Adel’son-Vel’skiy和Landis(AVL)树,来存储和组织信息。Chang和Liu [17] 在Foster [18]的基础上改进了工作,提出了一种图像索引和抽象方法,从而引领了图像检索的范式转变。Salton和Lesk [19,20] 提出了一种最显著的检索进展,开发了一种称为文本机械分析和检索系统(SMART)的方法。Rabitti和Stanchev [21] 提出了一种非文本化的方法,用于从庞大的图像数据库中检索图像。

Wang等人[22]探讨了使用颜色直方图的方法。他们解释说,局部特征区域(Local Feature Regions,LFR)在检索图像时将更为有效。在颜色直方图的基础上,Lee等人[23]采用了Wang等人的颜色直方图方法,提出了一种基于药丸印记的自动药丸识别系统,该系统包括三个特征:形状、颜色和纹理。Lee等人根据药片的边缘定位和不变矩来提取特征向量作为识别标识。他们的实验结果显示,在包含13,000张合法药物图片的数据集上,匹配准确度为73%。

深度学习技术已经引入到基于内容的信息检索(Content-Based Information Retrieval,CBIR)中。这些技术用于从输入图像中提取特征,以识别并从数据库中检索相似的图像 [24]。深度学习在识别对象[25,26]、人脸[27]以及处理大规模学习问题[28]方面表现出色的能力。深度学习还通过提高医护人员和患者的体验来改进临床工作流程[9]。文献中存在许多基于深度学习的模型,如卷积神经网络(Convolutional Neural Network,CNN)[24]、GoogLeNet[29]、AlexNet[30]和残差网络(Residual Network,ResNet)[31]。卷积神经网络(CNN)是一种用于数字图像检索的深度学习技术。CNN架构包括一系列相互交互的卷积、池化和全连接层[24]。

许多技术已经被开发用于药丸图像识别,它们具有不同的准确性水平和限制[32,33]。MobileDeepPill [34]是一个CNN架构,它集成了药丸的颜色、梯度和形状测量,用于比较消费者和参考图像。Guo等人[35]使用支持向量机(SVM)来研究颜色属性,在其中实现了97.90%的总体颜色分类准确度。然而,Guo等人的技术的有效性受到一些因素的限制,如光照条件、相机分辨率以及药丸和背景颜色的对比度。一些药丸识别技术已经被开发,仅基于形状、颜色和印记的子集来识别药丸,例如[36–38]中的作品。[39]中的工作识别了只有四种预定义颜色和类别之一的药丸。

最近,Kwon等人[40],Holtkötter等人[41]和其他类似的作品提出了基于神经网络的方法来从图像中检测药丸。与我们的方法不同,我们的方法旨在从药丸图像中识别单个药丸,而[40,42,43]中的方法侧重于从包含一组药丸的图像中识别一个药丸。[41,44]中的研究旨在检测泡泡片图像中的药丸以跟踪口服药物摄入。Nguyen等人[45]的工作利用外部帮助,即从处方中提取的信息,来学习药丸之间的潜在关联。虽然这些研究的问题与我们的研究不同,但我们相信我们的研究通过提出一种准确和高效的药丸识别方法,对文献中的工作进行了补充。

3. Methodology

该研究旨在提高图像检索的准确性和效率,以减小在开处方时出现的临床错误,特别是药丸类药物。总体情境如下:医生或患者拍摄了一张未识别的药丸的照片。然后,药丸照片(查询图像)被发送到我们提出的系统中,与已有的药丸图像数据库进行识别。挑战在于这些照片可能在不太理想的环境中拍摄。例如,照片可能是使用低质量相机拍摄的,拍摄时光线不足,角度不同,或者背景嘈杂。

为了应对上述挑战,我们提出了一个基于两个步骤的图像检索方法:(1)特征提取的预处理阶段和(2)分类。总体提出的方法如图1所示。在这里插入图片描述

3.1. Preprocessing and Features Extraction

输入的药丸图像(查询图像)经过一系列的预处理过程,以弥补颜色失真并识别相关信息。总的预处理过程包括3个主要步骤,用于检测和提取颜色、形状和印记。在药丸图像经过图1中的分割步骤之前,将图像转换为灰度格式。这个预处理步骤用于调整图像中红色、绿色和蓝色(RGB)分量的强度。因此,对于每个像素,必须标明单一的强度值。图2显示了一个原始的输入药丸图像(图2a)及其灰度版本(图2b)。需要注意的是,本文中各种图中显示的药丸图像都来自国家医学图书馆(NLM)的药丸图像数据集[46]。
在这里插入图片描述
对于颜色检测,首先将高斯滤波器应用于灰度图像,以模糊图像,从而去除不需要的细节和噪音。然后,在高斯滤波器的输出上应用均值滤波器,以平滑图像。接下来,使用直方图均衡化来增强颜色对比度并提取颜色。图3可视化了图2b中相同药丸图像的颜色检测过程。

对于形状检测和提取,我们在灰度图像上使用Sobel滤波,以精细化图像,有助于显示药片的边缘和边界线。图4可视化了图2b中相同药丸图像的形状检测和提取过程。

最后,对于印记的提取,我们应用Canny边缘检测器来确定图像中的所有边缘,然后进行膨胀操作来软化图像。在应用尺度不变特征变换(Scale Invariant Feature Transform,SIFT)和多尺度局部二值模式(Multi-Scale Local Binary Pattern,MLBP)描述符后,清晰的印记最终被显示出来。图5可视化了图2b中相同药丸图像的印记提取过程。在这里插入图片描述
在这里插入图片描述

3.2. Proposed CNN Architecture

第一步构建了一个卷积神经网络(CNN)来提取查询图像的特征,即形状、颜色和印记。第二步使用分类器来将提取的查询图像特征与现有药丸图像的特征进行匹配。总体提出的架构如图6所示在这里插入图片描述
所提出的CNN网络的第一层负责接受输入的药丸图像。在我们的情况下,输入层接受尺寸为227×227像素的RGB图像。然后,它们被馈送到CNN模型,该模型按照以下方式进行处理:

  • 药丸图像通过一个卷积层(Conv1)进行处理,尺寸为56×56×96,这意味着该层的输入是一个高度和宽度均为56像素且具有96个颜色通道的药丸图像。
  • 结果张量(图像)经过四个附加的卷积层,其高度和宽度比前一层小(13像素),并且输入通道的数量增加到256个颜色通道。
  • 结果特征图被转化为一个具有4096个神经元的全连接(FC)层,该层连接到第二个具有4096个神经元的全连接层。
  • 然后,提取的特征(颜色、形状和印记)被馈送到分类层;然后,我们使用k-NN分类器来更准确地处理预测并减少运行时间。
  • 最后,分类层输出一个预测类别,即来自存储数据库的匹配图像集。有关CNN层和处理的更多细节,我们参考读者查看[30,47]。

还需要注意的是,我们在整篇文章中可互换使用术语“预测”和“识别”。

3.3. Classification

在提取输入原始药丸图像的特征后,下一步是使用分类器来预测药丸的类型。分类是一种监督学习技术,其中要预测的类别(药丸类型)是事先已知的。文献中存在多种分类器,尽管它们在准确性和效率方面有所不同。
k-Nearest Neighbors (k-NN) [13,14] 是一种非参数分类器,它假定相似的对象(即数据点)通常在比较不相似的对象时“更接近”彼此。k-NN使用距离度量来衡量数据点之间的相似性。其中最常见的距离度量之一是欧氏距离,可以用以下函数来表示:
d ( X , Y ) = ∑ i = 1 n ( y i − x i ) 2 d(X, Y) = \sqrt{\sum_{i=1}^{n} (y_i - x_i)^2} d(X,Y)=i=1n(yixi)2
其中,X和Y是n维空间中的两个数据点,xi和yi是来自原点的欧氏向量。当我们的提出的模型接收到查询图像时,该模型将图像转换为特征向量,分类器将使用这些特征向量来预测查询图像中的药丸类型。在第4节的所有实验分析中,我们将k设置为5。

支持向量机(Support Vector Machine,SVM)[48] 是一种分类器,当给定一组输入对象时,它创建一个虚拟的分割线以区分不相似的对象。这个虚拟的分割线被称为超平面,因为它可以分隔在三维以上的空间中表示的数据点。对于一组输入数据点,SVM可以创建多个潜在的超平面。SVM选择最佳分割超平面,即只保留最小化分类错误的超平面。

Residual Network [31],又称为ResNet,是一种基于神经网络的模型,可以用作卷积布局中的最终识别器。ResNet可以包含超过50层,并用于分类和提取图像中的特征。这种技术利用跳跃连接来减小训练错误,并在不损失图像质量的情况下将早期层的输出添加到后续层。

4. Results

提出的模型是在带有100GB硬盘、24GB内存和6个2.5 GHz CPU的Ubuntu虚拟机上,使用MATLAB R2018实现的。接下来,我们设计了一组实验,以评估我们提出的模型在准确性(正确预测的药丸类型的百分比)和效率(完成时间)方面的性能。

4.1. 数据集

提出的方法是使用来自公开可用的国家医学图书馆(National Library of Medicine,NLM)数据集[46]的药丸图像进行评估的。NLM数据集包括来自1000种不同药丸的7000张药丸图像。每张药丸图像都被分类为参考图像或消费者图像。图7说明了这两个类别;图7a显示了参考图像中的样本药丸,而图7b显示了相同药丸在消费者图像中的样本。参考图像是在受控条件下拍摄的,因此确保了对光照和背景的适当控制。NLM数据集包含2000张参考图像,属于1000种不同的药丸(每种药丸都有正面和背面图像)。另一方面,消费者图像是以模拟用户使用手机摄像头拍摄的图像质量的方式拍摄的。也就是说,消费者图像在质量、焦点和设备类型上各不相同。NLM数据集包含5000张消费者图像,其中每个1000种不同的参考图像都有5张相关的消费者图像。

表1总结了参考图像和消费者图像的元数据。图像以24位深度的jpeg格式和TrueColor颜色类型拍摄。参考图像和消费者图像之间的主要差异在于相机类型、图像大小和位置。所有参考图像都是在中心位置拍摄的,而消费者图像是在共位位置拍摄的。在这里插入图片描述

4.2. Performance Analysis

在给定由消费者拍摄的药丸图像的情况下,我们希望评估我们的模型在基于药丸的形状、颜色和印记来识别相应的参考药丸图像方面的准确性。

图8直观展示了应用我们提出的药丸图像识别模型在NLM数据集中的药丸图像上的结果。图8中的每个对象都是一颗药丸。匹配的药丸(消费者图像及其相应的参考图像)被放在一起。这个图表的目的是在视觉上展示提出的模型的整体准确性。在本节的其余部分,我们将使用广泛采用的准确性指标,即均值平均精度(mean Average Precision,mAP)、混淆矩阵来测量真正例(True Positives),以及前k准确性(Top-k Accuracy)。此外,我们将我们的模型与带标签的CNN+kNN与CNN+SVM以及ResNet-50 [31] 进行比较。

上述三个准确性指标基于精确率(Precision)和召回率(Recall)的概念。精确率衡量了所有正标识中正确标识的分数。召回率衡量了所有数据集实际正例中正确标识的分数。术语“正例”指的是目标类别,即药丸。下面是精确率、召回率和准确度的方程:

精确率 =
TP/(TP + FP)
(2)

召回率 =
TP/(TP + FN)
(3)

准确度 =
(TP + TN)/(TP + FN + FP + TN’)
(4)

其中,TP(真正例)是目标类别的正确预测数量,FN(假负例)是目标类别的错误预测数量,FP(假正例)是非目标类别的错误预测数量,TN(真负例)是目标类别的正确预测数量。在这里插入图片描述
为了使分类器能够正确预测目标类别,分类器必须在查询图像(消费者药丸图像)和目标图像(参考药丸图像)之间找到一个“可接受”的匹配。这个匹配在数值上由一个阈值定义,该阈值衡量查询图像和目标图像之间重叠区域的分数。根据这个阈值,精确率和召回率的值会有所变化。

另一个在信息检索和目标检测系统评估中常用的性能度量是均值平均精度(mean Average Precision,mAP)。mAP指标测量了分类器在不同召回率值上的平均精度值。更高的mAP分数表示模型在检索相关信息或准确检测对象方面性能更好。mAP考虑了精确率和召回率之间的权衡,并考虑了假阳性(FP)和假阴性(FN)。这个度量提供了对分类器在识别药丸方面的准确性的更广泛理解。计算mAP的步骤如下:

  • 对于每个对象类别,计算平均精度(AP):
    在这里插入图片描述

    其中(n)是给定对象类别的数据集中相关项的总数,而每个相关的k-object的精确度是在预测项的排序列表中相关项位置处计算的精确度。

  • 计算所有对象类别的AP得分的均值作为mAP:
    在这里插入图片描述

其中(N)是数据集中的对象类别总数。

在NLM数据集中的药丸图像上,我们为ResNet-50、CNN+SVM和CNN+kNN(我们提出的模型)计算了mAP性能度量,使用了从0.1到0.9的不同阈值。mAP指标的比较如表2所示。此外,我们绘制了这三个模型的精确率-召回率曲线。预测模型的精确率-召回率曲线可视化了模型的准确性。曲线下面积越大,预测质量越好(反映了良好的预测和召回)。图9分别显示了上述三个模型的三个精确率-召回率曲线。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值