用机器学习推进生物传感器

🌞欢迎来到AI+生物医药的世界 
🌈博客主页:卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创!

📆首发时间:🌹2024年4月2日🌹

✉️希望可以和大家一起完成进阶之路!

🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分感谢!


   

        化学计量学在基于生物传感器的检测、分析和诊断中发挥着关键作用。如今,作为人工智能(AI)的一个分支,机器学习(ML)已经取得了令人印象深刻的进展。然而,新的高级ML方法,特别是以图像分析、面部识别和语音识别而闻名的深度学习,对生物传感器界来说仍然相对难以捉摸。

        本文系统地讨论了ML如何对生物传感器有益。在传感数据分析的基础上,总结了目前流行的ML算法的优缺点。特别强调了卷积神经网络(CNN)和递归神经网络(RNN)等深度学习方法。全面讨论了各种ML辅助电化学生物传感器、可穿戴电子器件、SERS等基于光谱的生物传感器、荧光生物传感器和比色生物传感器

       此外,还介绍了生物传感器网络和多生物传感器数据融合。这篇综述将很好地将ML与生物传感器连接起来,并大大扩展用于检测、分析和诊断的化学计学。

      生物传感器是一种检测或诊断设备。与传统或更大的分析仪器相比,生物传感器具有速度快、成本低、无损和现场检测的优点。它们已被广泛用于基础生物研究、食品安全、环境监测、疾病诊断、药物筛选。在过去的几十年里,随着纳米技术、信号放大策略和换能器的广泛发展,生物传感器得到了长足的进步。然而,所有的生物传感器都不可避免地存在一些不规则的信号噪声。一些生物传感器严重依赖抗体或适体作为生物受体,这限制了生物传感器的保质期短和稳定性差。


        目前大多数生物传感器的准确性和可靠性限制了它们的商业化。因此,研究人员正在寻找其他方面的突破,以提高生物传感器的性能。在此,基于机器学习(ML)的传感数据分析是重点。ML可以为克服生物传感器面临的挑战提供新的策略,也可以成为普通生物传感器成为智能生物传感器的途径,智能生物传感器可以基于决策系统自动预测分析物的种类或浓度。化学计量学属于化学学科,它采用统计或数学方法,(a)通过分析化学数据来询问最大的化学信息,(b)选择或设计最佳的实验和测量程序。化学计量方法在分析化学中得到了广泛接受。可以是克服生物传感器挑战的策略或工具之一。化学计量学在电化学、光学、比色、和其他生物传感器产生的复杂信号的定量和定性处理中的应用被广泛报道。

       已经报道了许多机器学习算法,最著名的是主成分分析或回归(PCA或PCR)、线性判别分析(LDA)、多元线性回归(MLR)、偏最小二乘判别分析或回归法(PLSDA或PLSR)、层次聚类分析(HCA)及其组合。这些化学计量方法在以前的工作中已经得到了全面的回顾。如今,许多先进的数据处理ML算法正在出现,如κ-最近邻(κNN)、支持向量机(SVM)、朴素贝叶斯(NB)、决策树(DT)、梯度提升树(GBT)、随机森林(RF)、前馈人工神经网络(前馈ANN)、递归神经网络(RNN)和卷积神经网络(CNN)。他们中的一些人很好地参与了生物传感器,而另一些人则没有受到生物传感器界的影响。与传统ML方法相比,先进ML方法的优点这些方法能够询问复杂生物样品的适当非线性依赖性,为解决生物传感器领域的紧迫挑战提供了无与伦比的的可能性。AI、ML和DL以及各种ML算法之间的关系如图1所示。第3节将更详细地介绍ML算法。
         这篇综述的目的是及时介绍先进ML及其在生物传感器中的应用的讨论和展望。将系统地介绍各种ML算法,并强调它们在各种生物传感器中的应用。在ML的帮助下,化学计量学将得到扩展,生物传感器可以成为智能生物传感器。更进一步,智能生物传感器将很容易集成到物联网(IoT)中。

图1。AI、ML和DL之间的关系,以及本综述中涉及的各种ML算法。CNN:卷积神经网络。DT:决策树。前馈神经网络:前馈人工神经网络。GBT:梯度提升树。HCA:层次聚类分析。κNN:κ-最近邻。LDA:线性判别分析。MLR:多元线性回归。NB:天真的贝叶斯。PCA或PCR:主成分分析或回归。PLSDA或PLSR:偏最小二乘判别分析或回归。RF:随机森林。RNN:递归神经网络。SVM:支持向量机。

图2:ML给生物传感器带来的好处。

ML如何使生物传感器受益

首先,ML可以有效地处理复杂矩阵或样本的大感知数据。

ML在生物传感器中的另一个好处包括从可能彼此严重重叠的噪声和低分辨率传感数据中获得合理分析结果的可能性。此外,适当部署ML方法可以通过数据可视化发现样本参数和传感信号之间隐藏的关系,并挖掘信号和生物事件之间的相互关系。特别地,ML可以用于以几种方式分析来自生物传感器的原始感测数据:

(1) 分类:基于目标分析物的算法可以将传感信号分类为各种类别。

(2)异常检测:生物传感器不可避免地受到样品基质和操作条件的影响。当生物传感器在现场使用时,它们会显著干扰污染。ML可以检查信号并回答“信号看起来正确吗?”它也可以“纠正”由于真实样本中的生物污垢和干扰而导致的传感器性能变化。

(3) 降噪:感应信号中始终包含噪声。来自生物传感器的信号会在几秒钟或几分钟内发生变化,而诸如电噪声之类的信号干扰可能会在亚秒时间线上发生。因此,可以训练ML模型来区分信号和噪声。

(4) 物体识别和模式识别。通过使用ML算法发现潜在物体和模式,可以轻松有效地解释传感数据。

     ML可以直接、自动、准确、快速地辅助生物传感器读数,这对于现场检测或诊断非常重要。Orringer小组开发了一种CNN算法辅助的光学成像方法来预测诊断结果。结果可以在150秒内以自动方式读出。然而,病理工作人员对图像的解释需要30分钟。

    此外,机器学习已被用于设计更理想的生物传感器。具有负渗透率和介电常数的超材料已被应用于放大基于表面等离子共振(SPR)的生物传感器的检测信号。准备具有各种反射特性的超材料对确保共振对 SPR 生物传感器有用是至关重要的。自编码器(AE)和多层感知器(MLP)被用来预测超材料 SPR 生物传感器的反射特性。随后,利用 t-分布随机邻域嵌入(t-SNE)和 AE 进行降维处理,对超材料进行了 k-均值聚类。对超材料进行聚类可以极大地加速研究人员设计优化的感应器装置,而不需要进行大量的实验。

  图 3. (A) 基于机器学习的数据分析的一般流程。(B) 训练阶段中的损失曲线。当测试集的损失增加时,会发生过拟合现象。获得授权转载自参考文献47。版权归2019年 Elsevier B.V.所有。(C) 混淆矩阵的表示,可从中提取的第一级指标以及更高效的第二级指标公式。获得授权转载自参考文献44。版权归2020年 Elsevier B.V.所有。(D) ROC 曲线。获得授权转载自参考文献50。版权归2019年 Springer Nature Limited所有。

各种机器学习算法及其在生物传感器中的优点

本节旨在介绍先进机器学习算法的一般类型和实施过程。抽象地说,机器学习被定义为一种能够通过从原始数据中提取特征来获取知识的系统或计算机程序。这些新获得的知识可以用来做出决策,以解决现实世界中的问题。具体来说,在生物传感器领域应用机器学习时,它被视为一种数据处理和分析的工具或方法,例如提取特征或预测分析物的种类和浓度。机器学习可以分为监督学习和无监督学习。监督学习是指可以通过一组带有目标输出的输入数据来训练的机器学习算法。在训练阶段,算法对输入数据集进行一定的预测,并使用给定的真实值来提高预测值,直到算法达到可接受的准确度。它们通常用于执行分类和回归,并取得了很大的进展,特别是对于光谱生物传感器。无监督学习则是指没有带有给定输出的标记训练数据集。其目标是确定输入空间中数据集的分布(称为密度估计)或在输入数据集中找到一组相似的例子(称为聚类)。k均值聚类是最常见的无监督学习算法之一。

机器学习数据分析的一般流程。生物传感器领域存在序列数据集(例如通过电学和光谱生物传感器获取的数据)和图像数据集(例如通过比色法和荧光法生物传感器获取的数据)。根据数据集和分析目的(定性识别、定量检测),设计一个合适的机器学习模型是首要任务。图3A中呈现的工作流程需要

在为特定生物传感器设计机器学习架构之后,需要实施图3A中呈现的工作流程。

通常情况下,需要对原始传感数据进行预处理。一般的预处理方法包括导数、去噪、傅里叶变换等。系统特定的预处理方法包括数据压缩、消除基线漂移、归一化、转换等。预处理方法的应用对机器学习模型的总体性能有很大影响。对于拉曼光谱,每个光谱都需要进行 Savitsky-Golay 平滑处理、去除背景并将其缩放到[0,1]区间。对于脑电图(EEG)信号,在输入到机器学习模型进行训练和测试之前,每个信号都应该进行零均值、标准差为1以及Z得分归一化的预处理。归一化使得不仅可以比较模型的误差,还可以减少异常样本对训练过程的影响。自编码器是一种独特的神经网络,可以用于去噪或降维。然而,必须指出的是,原始数据的预处理不能保证产生更好的结果,因为它也可能意外地移除了一些信息特征。

预处理后的或原始的数据集应该分成三个子集,包括训练集(约60%)、验证集(约20%)和测试集(约20%)。训练数据集用于提取有意义的信息并找到算法的最佳超参数。在调整超参数时,验证数据集被应用。测试数据集用于报告算法的性能。它们通常从同一个大数据集中获取,以确保它们来自相同的分布。

模型权重的初始化在机器学习训练阶段起着重要作用。随机初始化是最常用的方法,尽管可能会出现梯度爆炸、消失或收敛缓慢的情况。一些初始化方法如 He 和 Xavier 初始化等被开发出来解决这个问题。当测试数据集的准确性明显低于训练数据集时,可能会发生过拟合。应该增强正则化强度以减少过拟合的风险。损失曲线是报告训练状态的关键指标,它还可以反映不同

44. 经典的损失曲线展示了过拟合和欠拟合的情况(见图3B)。

超参数调整是验证阶段传感数据分析的关键任务。算法的参数包括隐藏神经元的数量、学习率、批量大小等。为了发现每个参数的最佳值,可以采用网格搜索、随机搜索或贝叶斯优化等方法。交叉验证方法可以用于超参数调整,并在参数调整后评估算法的预测性能。例如,可以将5倍交叉验证应用于支持向量机(SVM)算法。

在实践中,分类器的结果可以显示在混淆矩阵中,混淆矩阵是实际标签与分配标签的表格表示。这允许提取真阴性(TN)、真阳性(TP)、假阴性(FN)和假阳性(FP)的概率。简而言之,TN/TP表示模型正确预测负/正类的情况,而FN/FP表示模型错误地预测负/正类的情况。此外,可以基于概率计算各种评估参数(见图3C),包括灵敏度(召回率)、特异性、准确度、精确度、F1分数和接收器操作特性(ROC)曲线(见图3D)。ROC曲线显示了模型的总体概况,并给出了曲线下面积(AUC),代表了灵敏度和特异性之间的折衷。AUC值越大,分类器越好。ROC曲线在传达有关二元分类器的信息方面表现出色,但在多类模型中无法做到这一点。在这种情况下,混淆矩阵更适合,因为它们有助于可视化模型对每个类别的表现。在生物传感领域,还可以使用三种其他度量标准,包括相关系数(R2)、预测相对误差(REP)和均方根差(RMSD)来评估模型的性能。它们可以计算为

其中,n表示样本总数,ci表示分析物i的实际值,ci'表示分析物i的预测值(从传感器输出中得出),ci表示实际值的平均值。

除了机器学习的一般流程外,还必须提及作为开发机器学习模型的重要策略的迁移学习。迁移学习指的是使用一个数据集开发模型,然后将其用于另一个相关的数据集的情况。在迁移学习中,主要采用两种方法:在算法库中搜索和使用已开发的模型,以及使用现成的样本开发预训练模型。数据不足通常导致深度学习方法的准确性和可靠性较低。然而,在某些情况下,临床样本是有限的。因此,开发基于迁移学习的深度学习模型

这样的模型具有巨大的潜力。基于来自肺部相关细胞的表面增强拉曼散射(SERS)数据集,开发了一个深度学习模型,然后将该模型转移到使用从患者血浆样本中收集的SERS数据集来预测肺癌分期。癌细胞外泌体与血浆外泌体簇之间的马氏距离定量评估了数据集的相似性。对于43名处于I和II期的癌症患者,使用转移模型可以准确预测90.7%的患者。值得注意的是,癌细胞外泌体与血浆外泌体的相似性与癌症的分期呈正相关。结果表明,转移模型可以使用血浆外泌体的SERS预测肺癌。I期患者的AUC为0.910,整个队列的AUC为0.912。

接下来的部分介绍了一些与生物传感器相关的机器学习模型,这些模型被广泛使用或具有巨大的研究潜力。它们的优点列在表1中。

支持向量机(SVM)。这是一种设计用于寻找一个超平面的算法,该超平面可以最大化训练模式和决策边界之间的间隔。它已广泛应用于癌症诊断和水源性病原体检测。基于核的SVM将核函数应用于数据,将数据转换为更高维的特征空间,如果数据集不能线性可分,性能受到两个超参数的影响,即核参数和核类型。核类型的选择由输入数据决定。

κ-最近邻(κNN)。这是一种主要用于分类的算法。已经提出了许多与κNN相关的方法。邻居数(κ)的选择基于数据集。通常情况下,较小的κ值使得类别之间的边界更加清晰,但增加了噪声对分类的影响。最近,该算法已经优化并广泛用于乳腺癌诊断和异常检测。

朴素贝叶斯(NB)。这是一种基于贝叶斯定理的概率分类器,其具有强(天真)独立性假设。这是最简单的贝叶斯网络。最大似然通常用于估计NB模型的参数。将NB与核密度估计耦合可以实现更高的准确性。

决策树(DT)、随机森林(RF)和梯度提升树(GBT)。在DT的算法结构中,每个节点代表要“测试”的实例中的一个特征,每个分支代表节点可以假定的一个值,每个叶子代表一个概率密度类分布或值分布。使用DT进行预测很快。然而,开发DT模型需要大量时间。它很难处理高维数据。随着树的深度增加,单个DT通常会遇到过拟合的问题。在这种情况下,它将获得理想的训练结果,但可能导致不可接受的测试误差。集成方法在各种机器学习应用中表现出色。广泛使用的集成方法包括RF、提升和装袋。RF(也称为装袋DTs)通过为分类和回归开发多个DT来运行。它可以解决过拟合问题,并且能够很好地处理嘈杂的数据。值得注意的是,随着树的数量增加,RF在实时分类或预测方面可能会变慢。因此,弱相关的DT被聚合成RF。

Boosting是一种强大的学习策略,通过加权组合许多弱学习器的输出,并在一系列中反复应用这些学习器,以提高预测准确性。GBT是另一种集成机器学习算法,包括AdaBoost、XGBoost、CatBoost和LightGBM。它具有高准确性、模型大小小和快速训练和预测过程的优势。在GBT中,树是顺序训练的,以补偿前一树的残差。每棵树的最大深度、一棵树中的最小叶子数以及每个叶子的最小数据点数可用于避免过拟合并最大化准确性。

前馈人工神经网络(ANN)。通常,一个ANN结构包括三层(输入层、隐藏层和输出层)。它由连接的神经元(节点)组成,旨在模仿人脑。节点处理输入信号并将其传输到下一个连接的节点。节点的输出受前一层节点给出的加权和的影响。深度学习是机器学习的一个分支,其特点是使用深度ANN,已经取得了很大的发展。从大学(Theano)到谷歌(TensorFlow)、微软(CNTK)和Pytorch等机构开发的开源深度学习框架现在为科学家和工程师提供了深度学习工具的访问。隐藏层的大小是影响ANN性能的关键参数之一。

卷积神经网络(CNN)。CNN属于一种深度学习,擅长于图像分析,如X光图像、磁共振图像和计算机断层扫描(CT)图像。CNN模型通常包括三层:(1)卷积层:该层包含滑动穿过预处理信号的滤波器(卷积核)。步幅控制滤波器在输入图像周围的移动。卷积步骤完成后可以得到特征图。 (2)池化层:它也可以称为降采样层。卷积层的输出需要通过池化操作来降低其维度,这可以防止过拟合并降低计算强度。 (3)完全连接层:通常使用激活函数(如Sigmoid、Tanh、Relu、LeakyRelu和Softmax)来引入输出的非线性。尽管CNN最初是为2D图像识别而开发的,但1D CNN在处理具有单一维度空间关系的数据方面取得了巨大进步,如股价、脑电图(EEG)、音频信号和光谱。Lussier等人开发了一个包含两层卷积、池化和密集连接神经元结构的1D CNN模型,用于多重SERS传感的分子光谱分析。Softmax函数被选择用于转换最终输出,并将其转换为概率值。最高概率被赋予正值1,而所有其他概率被赋予负值0。获取了1000个SERS光谱并随机分为训练集(60%)、验证集(20%)和测试集(20%)。对SERS光谱进行了预处理和标记。偏置和权重用随机值初始化。进行了十次训练和测试操作以检查模型的可靠性和可重复性。CNN中采用Inception模块,也称为DeepSpectra模型,用于定量分析一维光谱。在Inception模块中,同时进行不同的卷积操作

使用不同的滤波器尺寸,允许深度和宽度的DeepSpectra保持较大的值,而计算的复杂性保持不变。在更深层次的网络中,可以提取原始光谱的高级和低级特征。可以省略使用PCA进行的维度缩减。随着网络的扩展,可以提高其适应不同特征图的能力。与包括三个卷积层和两个池化层的传统CNN模型相比,DeepSpectra在小数据集(来自80个样本,每个样本700个特征)和大数据集(来自3793个样本,每个样本2151个特征)上均取得了良好的性能。然而,DeepSpectra模型在小数据集(来自80个样本,每个样本700个特征)方面与PLS模型表现相当。这表明基于CNN的光谱分析需要更大的样本量才能获得优异的重复性和准确性。

递归神经网络(RNN)。在不同的深度学习方法中,RNN已经引起了研究人员在与顺序数据相关的研究中的关注。RNN非常适合处理时间序列或顺序数据,因为网络结构专门设计用于在每一轮递归中表示历史信息。由于沿时间传播过去信息的属性,RNN广泛应用于序列映射问题,例如序列生成、语音识别、手写识别和强化学习。生物医学研究人员已经将RNN应用于检测基因和蛋白质之间的相互作用。最近的研究通过训练RNN已经实现了有希望的脑肿瘤分割性能。长短期记忆(LSTM)网络是一种具有长期依赖性能力的特殊类型的RNN。双向RNN与LSTM结合起来被开发用于检测DNA修饰。基于RNN的算法还提高了纳米孔测序读取的准确性。

不同类型的生物传感器与机器学习

电化学(EC)生物传感器。这是一种广泛使用的生物传感器。Ni和Kokot在2008年回顾了将EC生物传感器与传统化学计量学相结合的方法。然而,目前在电化学生物传感器中使用新型机器学习方法仍处于起步阶段。尽管电化学的相对复杂的理论背景可以描述大量信号,但在实际样品检测中,EC生物传感器的重复性或稳定性并不高。实际样品可能会有许多干扰物质,以及广泛的离子强度、温度、pH等。另一个原因是EC生物传感器中使用的电极或修饰电极随时间变化。因此,一维数据分析不足以获得与分析物类型和数量高度相关的敏感信号。这突显了将机器学习与EC生物传感器相结合的新兴机会,以研究如何利用机器学习来提高传感器在实际样品测量中的准确性和可靠性。

Massah等人使用SVM回归模型来改善基于循环伏安法的便携式EC生物传感器的性能。用于预测硝酸盐的浓度,应用不同的核函数类型,包括线性、多项式和高斯,以及各种参数。使用相关系数(R2)和均方误差(MSE)来估计它们的性能。结果表明,带有核参数γ = 0.20的多项式核效果最好,MSE为0.0016,R2为0.93。

SVM回归模型的应用使得电化学生物传感器的使用寿命得以改善,可以在酶固定化后工作10天。可以检测400个(硝酸盐)甚至更多的样品,而无需更换酶。Gonzales-Navarro及其同事比较了四种类型的机器学习回归模型,以增强在不确定环境中葡萄糖氧化酶生物传感器(GOB)的稳定性和准确性。基于径向基函数的SVM(SVM-R)、基于线性核函数的SVM(SVM-R-L)、基于Levenberg−Marquardt反向传播方法的ANN和PLS模型被使用。结果表明,SVM-R模型是改善安培式生物传感器性能的优秀机器学习模型。

电化学阻抗谱(EIS)在电化学生物传感器中很受欢迎。等效电路模型通常被应用于提取EIS数据的关键参数,并进行χ2检验。提取的参数,如电子转移阻抗(Ret)和电容,用于指示工作电极上的结合事件。然而,对于从复杂电极几何形状或复杂溶液中获得的EIS数据,选择或设计一个等效电路模型进行拟合是具有挑战性的。特别是对于基于小分子-蛋白质相互作用的EIS生物传感器,等效电路模型分析文献不多。在这种情况下,Rong等人开发了一个SVM模型来分析EIS数据,而无需等效电路拟合。

在这项研究中,四种不同的核函数(多项式、Sigmoid、线性和径向基函数)进行比较,以找到最优化的机器学习模型。54个EIS数据中的80%被随机选取为训练数据集,另外20%的数据被用作测试数据集。径向基函数核的SVM被证明在对训练数据集进行分类时具有最优性能,准确率达到了98%。非线性核系数(γ)和惩罚参数(C)被调整以改善基于径向基函数的SVM的性能,最优值分别为0.01和10。Ali等人应用反向传播ANN、最大似然和LDA对大肠杆菌(E. coli)菌株JM109、DH5-α和沙门氏菌进行了分类,通过它们的阻抗特征。阻抗信号通过插入式银电极和均匀装饰在聚酰胺基聚对苯二甲酸酯基底上的银纳米线来测量。每种细菌的样品数量为40个;每次测量包含251个数据点,由一个向量表示。这三种机器学习算法都实现了100%的准确率来对这些细菌进行分类。

到目前为止,尚未报道深度学习辅助的电化学生物传感器。可能的原因之一是可用数据集数量有限。一般来说,电化学生物传感器依赖于生物受体(抗体或适配体)来捕获分析物,并依赖于纳米材料来进行信号放大。因此,检测所需的大量数据量较小。

开发阵列式或多重化的电化学生物传感器来测试大量的真实样本(例如临床标本)将为在电化学生物传感器中应用深度学习带来机会。

将单分子(SM)电化学生物传感器与机器学习结合可以提高SM识别的准确性和精度。这种组合还可以定量评估分子识别能力,并优化电化学生物传感器设备的设计参数。SM电化学检测方法大致可分为两类:纳米间隙和纳米孔。从隧道电流-时间波形或离子电流-时间波形中提取的最大电流(Ip)和电流持续时间(td)被用作信号来识别分析物。它们被广泛应用于DNA、RNA、碳水化合物和肽链测序以及病毒检测。然而,分子体积和前线轨道能量差异小的分析物具有相似的Ip和td信号。电流信号的重叠不能满足多种分析物的检测和识别。通过使用机器学习方法(如SVM、RF和CNN)分析电流-时间波形来克服这一挑战。用于识别单氨基酸的纳米间隙生物传感器的基于SVM的分析。不同于仅将Ip应用为信号特征,通过每个获得的波形的快速傅立叶变换(FFT)获得的两个特征用于训练SVM算法,并开发了一个能够清晰区分手性对映体D-天冬酰胺和L-天冬酰胺、甘氨酸(Gly)和N-甲基甘氨酸(mGly)、同分异构体亮氨酸和异亮氨酸的二维图。在SVM的辅助下,其预测准确度分别从53%提高到87%、从55%提高到95%和从51%提高到80%。由于许多细菌具有类似的形态和尺寸,用于固态孔生物传感器的重叠离子电流尖峰引起了单个细菌细胞检测的困难。Kawai等人展示了旋转森林模型可以区分类似微生物形状的电气特征。除了电流波形的宽度td和高度Ip之外,还可以提取其他容易被忽视的特征来识别细菌种类(大肠杆菌和枯草杆菌)。它们是阻性脉冲顶点的钝度βapex(图4B)、启动角θ(图4C)、面积A(图4D)、峰前电流峰与峰后电流峰之比rm(图4E)、与横坐标和纵坐标相关的惯性Im(图4F)和Iw(图4G),通过耦合时间矢量和电流矢量提取了60个特征。总共提取了161个枯草杆菌和大肠杆菌的波形特征(共322个尖峰)作为训练数据,用于预测另外18个阻性波形作为测试。结果显示,单个细菌的区分准确度超过90%。同一组人还开发了一个肽功能化的固态孔生物传感器,用于使用类似的数据分析方法区分缺失鞭毛蛋白(ΔfliC)和野生型大肠杆菌的变种。提取了几个特征,例如启动角θ、脉冲峰位置r、脉冲钝度β、惯性Jσ和脉冲面积比例Sr,这些特征有助于个人细菌鉴别的精度。多物理学模拟被用来化学和物理地解释这些特征。

可穿戴电子产品。可穿戴电

可穿戴电子产品在基础生物医学研究和临床医学中有着广泛的应用,包括人机界面、疾病诊断和健康监测。最近,可穿戴电子产品,如电子纹身(E-tattoos)和表皮电子系统(EES),以及柔性电化学生物电子学,被广泛报道用于实时监测各种生理信号。三种不同的机器学习算法,包括κNN、DT和SVM,被应用于挖掘疲劳水平与生理信号之间的相互关系,然后基于多模式EES获取的生理信号预测工作者的疲劳状态。EES包含两个模块。一个模块包含应变传感器和三个柔性电极,可贴在胸部用于监测呼吸和心电图。另一个模块包含两个柔性电极,可贴在手掌上用于检测皮肤电反应。因此,开发的EES可以监测相关生理信号,并从电生理信号中提取特征。然后,将这些特征输入到提出的机器学习模型中,以找到最优算法并预测疲劳水平。结果表明,DT模型显示出89%的最高预测准确度。单分子(SM)电化学生物传感器和可穿戴电子产品的信号几乎都是时间序列顺序数据。由于循环神经网络(RNN)的网络结构专门设计用于表示每轮循环中的历史信息,因此RNN将是处理这些数据的良好选择。培训机器学习算法所需的数据量不足是将机器学习与可穿戴电子产品相结合用于健康监测、疾病诊断和复制人类感官功能的主要挑战之一。这一挑战应该在初始传感器设计阶段考虑,以构建可靠的传感器阵列,从而收集大量数据集。最近,Sundaram等人将可穿戴触觉(基于触摸的)手套传感器阵列与CNN集成,用于识别个别对象并估计未知对象的重量。具体地,制造了一组压阻传感器(548个传感器)并组装在针织手套上,建立了一个基于ResNet-18的架构,使用从触觉传感器收集的详细压力信息的大型数据库来识别对象和/或估计其重量。开发的触觉传感器阵列和与深度学习模型的集成突显了智能传感器在理解坚韧性和复制人类感觉功能在主动义肢和机器人中的作用的新兴应用。除了这些新兴应用外,将可穿戴电子产品与机器学习相结合,用于连续监测COVID-19患者的体温、血氧饱和度和呼吸生物标志物(咳嗽频率和强度以及呼吸率)突显了智能传感器的另一个重要应用,以应对当前的公共卫生挑战。例如,西北大学约翰·A·罗杰斯教授实验室的研究人员开发了一个可穿戴传感器,带有高带宽加速度计和温度传感器,以捕捉与COVID-19患者相关的早期体征和症状,包括体温、咳嗽强度和模式以及心率。这些生物物理测量为连续和实时监测COVID-19患者的生理状况提供了重要见解。重要的是,将这些生理数据与最先进的机器学习技术结合起来将创建一个有价值的平台,用于检测COVID-19感染,预测COVID-19的疾病严重程度和致命结果,并为重新开放经济提供指导。

. 经过预处理的罗丹明800的SERS光谱,SERS光谱被转换为像素,并被捆绑成大小为8×8的像素地图,CNN模型将光谱转换为浓度值。摘自参考文献51。版权所有 2019年美国化学学会。

SERS和其他基于光谱的生物传感器。表面增强拉曼光谱(SERS)可以获取复杂基质中分析物的内在指纹信息。SERS传感是最有前景的分析工具之一,可以实现快速、无标记、现场和非破坏性检测。然而,许多分析物和基质中的物质具有相似或重叠的光谱。手动区分它们是繁琐或不可能的。希望应用机器学习可以显着提高SERS的有效性。SERS基底的增强因子的一致性对于机器学习方法至关重要,因为数据集中的大方差会增加预测中的方差,从而限制方法的半定量或定量分析。在各种机器学习方法中,CNN总是表现出更好的预测准确性,特别是在中等或大型数据集上。因此,CNN现在是光谱分析中最流行的方法之一。Ying等人的团队报道了CNN在光谱分析中的实际指南。

他们开发了一种基于CNN的SERS生物传感器,用于检测金光栅基底上的寡核苷酸(OND)损伤。应用便携式光谱仪收集不同操作者对OND的SERS光谱,无需优化测试条件(如基底上的最佳位置、激光强度、采集时间和手动基线校正)。在他们的CNN结构中,引入了一种新的特征提取方法,称为二进制随机滤波(BSF)。BSF将评估每个输入特征的重要性,以识别原始光谱中的重要区域。所提出的SERS-CNN方法可以识别其他技术几乎无法检测到的非常小的DNA损伤。他们的结果显示,OND损伤分类的准确率高达98%,置信水平超过95%。

同一团队随后开发了一种改进的SERS-CNN方法,通过检测细胞培养基来识别正常和癌细胞。金多支链纳米颗粒(AuMs)被功能化为不同的化学基团,用于捕获生物标志物并增强拉曼信号。金光栅表面也被用来形成等离子耦合效应,以获得更高分辨率的SERS光谱。然而,挑战在于干扰信号随着目标分析物的增加而增加,随后降低了检测的可靠性。

将SERS和CNN方法相结合可以克服这一挑战。通过类似但修改过的CNN算法,结果显示数据验证的预测准确率达到了100%。

将SERS生物传感器与机器学习方法结合用于单分子和单细胞分析具有极高的可取性。Thrift和Ragan(引用51)提出了一种基于CNN的SERS用于量化次纳摩尔级罗丹明800浓度(见图5)。在SM浓度范围内获取光谱,并将每个SERS光谱转换为像素,并将它们捆绑成8×8大小的像素图以训练所提出的CNN模型。有趣的是,CNN模型可以轻松辨别非分析物和信号噪声,这显著提高了检测精度。CNN模型还可以根据Langmuir等温线的偏差将光谱信号转换为浓度值。

拉曼光谱也可以在单细胞或单粒子水平上识别微生物。将大量微生物的拉曼数据集与机器学习相结合可以产生更准确的识别结果。报道了激光夹持拉曼光谱与CNN模型相结合的方法,用于单细胞水平上鉴定微生物的种类或亚型。提出了一种新的基于遮挡的特征提取方法来处理拉曼光谱。根据特征的权重来区分不同种类或亚型的微生物。整体识别准确率为95.64 ± 5.46%。

还开发了一种基于荧光阵列的差异感应平台,也被描述为化学嗅觉,用于在100 nM浓度下识别八种不同的蛋白质而不需要生物受体。与使用LDA、κNN、GBT、SVM和LR进行参数优化的83%效率相比,达到了100%的模式识别准确率。

荧光和比色生物传感器。本节重点介绍了使用图像作为检测信号的荧光和比色生物传感器。从这些生物传感图像中自动识别颜色及其强度具有重要意义。数字聚合酶链反应(dPCR)作为一种荧光生物传感器被包括在内。侧向流动试验(LFA)、基于纸张的垂直流动试验(VFA)和其他比色试纸条被包括在色谱生物传感器中。

图6。 (A) 使用Mask R-CNN模型和阈值分割对不均匀光图像的分析。图中(a)来自实验的不均匀光图像;(b)阈值分割结果;(c)Mask R-CNN模型的结果。转载自引用文献158,版权归皇家化学学会所有。

(B) 用于混合AA分析的开发的CNN模型。转载自引用文献172,版权归皇家化学学会所有。

除了荧光和比色图像检测方法之外,还报道了一种基于彩色光谱图像的混合氨基酸(AA)分析方法。研究探索了六种常见的CNN,包括残差网络(RestNet)、基本CNN、LeNet、GoogLeNet Inception v1、VGGNet和SqueezeNet。在这六种CNN算法中,开发的Inception v1模型表现出更高的准确性和更好的严密性。五种氨基酸的R2为0.999,RMSE为10.22%(图6B)。

其他生物传感器和设备。石英晶体微天平(QCM)基础的生物传感器是一种吸引人的传感器设备类型,其重量敏感性能可在亚纳克级分辨率下检测分析物。使用SVM分类/回归算法对QCM生成的频率偏移数据进行了蛋白酶和纤维蛋白酶的区分/定量分析。由于胰蛋白酶和纤维蛋白酶对κ-酪蛋白的影响类似,需要使用ML来区分相似的数据。结果表明,在15-20分钟内,频率偏移可以以超过95%的准确率进行分类,这比使用统计方法更快。在QCM传感器中,使用了经过人工蜂群(ABC)算法训练的ANN模型来对五种不同的醇进行分类。作为混合算法的一种类型,与反向传播(BP)算法相比,ABC算法总是能够输出令人鼓舞的结果。在训练和测试数据集中都获得了E-16的均方误差水平。还开发了用于人绒毛膜促性腺激素(HCG)和多重心脏标志物的磁性纳米颗粒(MNP)标记的免疫色谱检测试纸条(ICTSs)。使用自定义波形重建方法和SVM模型分析了信号较差的情况,大大提高了灵敏度和准确性。数据处理流程的流程图如图7所示。对比了几种核函数,线性核函数在所有情况下都显示出更高的准确性,为100%。

                                           数据处理流程的流程图

血细胞计数为快速诊断疾病提供了重要的指标。报道了几种基于机器学习的微流体细胞计数仪。基于极限学习机的超分辨率(ELMSR)和基于卷积神经网络的超分辨率(CNNSR)被用于比较一种集成微流体通道和补偿金属氧化物半导体(CMOS)图像传感器的无透镜血细胞计数设备。细胞分辨率提高了四倍,CNNSR 在分辨率增强方面显示出了9.5% 的改进质量。Oliver 和其同事开发了一种血脑屏障(BBB)器官芯片,用于研究乳腺癌的脑转移扩散。细胞动态表型和特征通过共聚焦层析成像进行检测。图像被八种机器学习算法分析,包括神经网络、朴素贝叶斯、随机森林、AdaBoost、K近邻、逻辑回归和随机梯度下降,以预测脑转移潜力概率。加权平均精度和召回率(F1)、准确率(CA)和曲线下面积(AUC)的面积被用来评估这些机器学习算法。神经网络(AUC = 0.951)、AdaBoost(RF)(AUC = 0.950)和随机森林(AUC = 0.946)在AUC方面排名前三。阳性预测值和阴性预测值均为0.87,可以被认为是临床行为的优秀预测模型。

各种基于机器学习算法的生物传感器的性能列在表2中。

**生物传感器网络和多生物传感器数据融合**

多生物传感器同步测量对于实际应用至关重要。来自多个生物传感器的传感数据的融合直接影响应用性能。

ML-辅助体外血脑屏障组织芯片模型研究癌症脑转移扩散。经参考文献180许可改编。版权所有2019英国皇家化学学会

已应用于生物医学领域,如基于动脉血压、光电容测量(PPG)和心电图的融合监测。一般来说,传感数据的融合可以分为三种类型:决策级融合、特征级融合和数据级融合。同质传感数据(来自具有相同传感机制的生物传感器)可以直接融合以检测相同的分析物。对于异质传感数据(来自具有不同传感机制的生物传感器),应考虑决策级融合或特征级融合。

SPR和SERS的同步测量将非常有趣,因为它们共享信号增强的类似原理:金属纳米颗粒的局部SPR(特别是Au、Ag和Cu)。结合EIS和SERS也具有吸引力,可以获得异质传感数据。EIS是一种简单、有效且无标记的方法,可定量检测生物事件。SERS可以定性地收集生物物种的独特分子光谱。

多传感器数据融合依赖于各种机器学习方法。前馈神经网络、朴素贝叶斯和决策树被用于识别帕金森病患者的活动。声誉基于投票和多数投票被应用于传感数据融合。将协方差矩阵自适应进化策略(CMAES)与决策级和特征级融合相结合,用于处理来自两个电子鼻的传感数据。PCA被用来提取特征,概率神经网络被用作分类器。结果表明,传感器融合的误差率为11%;两个单独的传感器的误差率为13%。

**结论与展望**

从线性校准和非线性拟合到用于解释传感数据的复杂生物样品的分类、回归和聚类的先进机器学习方法,化学计量学为解释传感数据提供了稳健的数学工具。ML方法可以提高复杂重叠信号的定性判别和微量分析物的定量预测。尤其是深度学习方法,包括CNN和RNN,在传感数据分析中越来越受欢迎。传统的数据回归分析使用数学方程计算样品的因变量。输入特征通常少于两个。相反,先进的ML模型可以处理包含数百个输入特征的数据库。足够的数据集是

g/10.1021/acssensors.0c01191

**结论与展望**

对于深度学习方法来说,足够的数据集是至关重要的。设计和应用多重或高通量生物传感器,如微阵列和多通道流体芯片,可以帮助研究人员突破连接机器学习和生物传感器的数据瓶颈。由国家卫生研究院和疾病控制与预防中心等联邦机构提供的数据库代表了培训机器学习算法的另一个重要数据资源。

与传统的实验室检测相比,即时检测通常具有较低的可靠性和准确性。将机器学习方法应用于即时检测代表了一种研究机会,可以探究如何利用机器学习提高传感器在真实样品测量中的可靠性和准确性。与机器学习算法集成的智能手机应用程序可以成为直接读取即时检测生物传感器的非常有趣的工具。这将极大地推动即时检测生物传感器向家庭测试或自我测试的方向发展。

分析单分子/单粒子/单细胞检测数据是具有挑战性的,主要受到信号噪声比低、信号重叠和分散信号的限制。对于单分子测序生物传感器,必须分析大量数据集。传统的假设驱动型数据探索和选择可能不合理,因为可能会错过意想不到的信号。开发机器学习方法来减少噪声并提取多维信号特征可以提高模式识别的分辨率和客观识别的灵敏度。

将可穿戴生物传感器与机器学习结合用于健康监测是另一个机会。可穿戴生物传感器因其在多种生物液体(如汗液、眼泪和唾液)的非侵入性监测方面的巨大潜力而引起了人们的极大兴趣。可穿戴生物传感器的理想愿景是在柔性贴片上异质集成一系列传感器网络,可以连续监测生物标志物。机器学习可以用于解析多路传感数据的时间序列,以确定健康状态。在这些应用中,机器学习必须是可解释的(而不是黑盒子)。机器的决策必须能够被医学专业人员和决策者理解。与此同时,人类的知识和推理规则需要以透明的方式纳入深度学习系统中,以加强和调节其学习和决策过程。此外,将人类的知识和推理规则纳入机器学习中可以显著减少训练机器学习算法所需的样本量。因此,迫切需要将可解释的机器学习与可穿戴电子产品结合起来进行健康监测和相关医疗干预。

**图8.**辅助机器学习的体外血脑屏障器官芯片模型用于研究癌症脑转移的展示。由180引用并适应。版权所有2019年皇家化学学会。


         各种机器学习算法,包括支持向量机(SVM)、主成分分析(PCA)、层次聚类分析(HCA),人工神经网络和决策树已被应用于用于有效和准确决策的人工智能生物传感器(表1)。支持向量机器(SVM)是基于以下思想的有监督的机器学习算法求两个数据类之间的最优分离超平面以求解两类模式识别问题(Kotsiantis等人,2007;李等人,2019)。SVM最近形成了一种趋势,从中可以证明数据增加了分析。精确例如,从生物分子传感中获得的参数
         使用石墨烯纳米电子器件,用SVM进一步分析,以提供分配的最高准确(Puczkarski等人,2017)

download_file (ox.ac.uk)

         Bbouin和Shrestha(2019)使用SVM评估使用呼吸检测血糖水平的准确性挥发性有机化合物。

Microcontroller Implementation of Support Vector Machine for Detecting Blood Glucose Levels Using Breath Volatile Organic Compounds (boubinmj.github.io)

       支持向量机(SVM)还被应用于解决荧光光谱重叠问题,以实现溶菌酶和三磷酸腺苷的同时检测(Saberi等人,2020年)。

设计一种基于CoOOH纳米片和碳点的荧光适配传感器,用于同时检测溶菌酶和三磷酸腺苷 - ScienceDirect 直线电话

       为了对侧向流动法检测到的白蛋白蛋白进行分类,基于智能手机相机获取的特征参数进行了回归分析,并采用线性支持向量机分类器(Foysal等人,2019年)。

Sensors | Free Full-Text | Analyte Quantity Detection from Lateral Flow Assay Using a Smartphone (mdpi.com)

              PCA已用于借助于从葡萄糖和果糖生物传感器中提取振动数据表面增强红外吸收(SEIRA)(Kuhner等人,2019)。

Vibrational Sensing Using Infrared Nanoantennas: Toward the Noninvasive Quantitation of Physiological Levels of Glucose and Fructose (uni-stuttgart.de)

      同样,Feng等人(2010年)使用主成分分析(PCA)将测得的表面增强拉曼散射光谱特征分成两个几乎没有重叠的集合,用于鼻咽癌的检测。Stravers等人(2019年)采用PCA对使用表面等离子共振成像技术聚类的体液样本进行了聚类。此外,通过PCA和PLSR算法分析了测得的荧光图像,用于低水平的NT-proBNP测定(Squire等人,2019年)。层次聚类分析(HCA)是一种无监督聚类方法,它形成一个层次结构,将数据集中的附近对象分类到同一簇中(Lei等人,2015年;Li等人,2019年)。例如,Kim等人(2020年),HCA方法被引入到基于噬菌体的比色传感器阵列对医用化学品类型进行分类。此外,通过HCA,利用荧光交叉响应传感器阵列准确地对四种挥发性有机化合物进行了聚类,没有出现误差(Lei等人,2015年)。人工神经网络(ANNs)是人工智能的一个分支,可以看作是对人类大脑模拟的延伸。ANNs是用于复杂关系分类的非线性模型(Kotsiantis等人,2007年;Li等人,2019年)。例如,ANN已被用作对邻苯二酚和间苯二酚的流动注射管测定的非线性模型校准(Boroumand等人,2019年)。张和陶(2019年)设计了一种ANN算法,通过个体差异解决复杂的生理监测的物理/化学原因。近年来,深度学习是机器学习中的一个新的研究方向。引入了一种超灵敏的微泡测定法来量化飞莫摩尔级别的蛋白质生物标志物,利用CNN识别和计数图像中的微泡数量,仅需要一个智能手机摄像头即可进行数字读数方法(Ravi等人,2017年)。决策树(DT)是机器学习中广泛使用的分类器,是处理复杂行为全局视图的有效工具。例如,将纳米尺度立方空间上的木瓜蛋白酶与决策树识别属性相结合进行分析。创建了一个由四个硅表面组成的纳米尺度立方空间以捕获自由木瓜蛋白酶。当与木瓜蛋白酶结合时,四肽的原子数量不同。此外,利用由十八个四肽组成的决策树作为分析行为的有效工具。

尽管使用集成算法可以获得最佳的分类准确度,但也会增加存储和计算量。在选择最佳的机器学习算法用于人工智能生物传感器时,关键问题是哪种算法能够在给定的应用问题上进行表征,而不是算法本身(Domingos,2012)。在糖尿病管理方面,一些公司商业化了机器学习算法,实现了对血糖水平的自动和持续监测,并推荐医疗调整。DreaMed Diabetes声称,其获得美国食品和药物管理局(FDA)批准的Advisor Pro软件决策支持平台利用了事件驱动、机器学习和模糊逻辑技术来处理来自一系列连接设备的数据,包括胰岛素泵和自我管理的血糖计(DreaMed,https://dreamed-diabetes.com/(访问时间:2020年4月8日))。Bigfoot Biomedical是一家专注于开发基于模型设计的自动胰岛素输送系统的初创医疗技术公司,为患有1型糖尿病的人提供了一种方式(Bigfoot,https://www.bigfootbiomedical.com/(访问时间:2020年4月8日))。总部位于冰岛的初创公司Medilync声称其血糖监测设备利用机器学习持续监测患者的血糖水平(Medilync,https://medilync.com/(访问时间:2020年4月8日))。

生物标志物传感机制平台AI算法参考文献
溶菌酶和ATP荧光纳米片SVMSaberi等人(2020)
血糖电子鼻便携式设备SVMBoubin和Shrestha(2019)
生物分子隧道结石墨烯纳米电极SVMPuczkarski等人(2017)
白蛋白蛋白横向流试验纸智能手机摄像头SVMFoysal等人(2019)
苯、甲苯、甲醛电子鼻传感器阵列室SVMWang等人(2016a)
血糖(1型糖尿病患者)连续血糖监测仪可穿戴生物传感器SVM,ARIMA,RFRodriguez-Rodriguez等人(2019)
葡萄糖、果糖SEIRA无创传感器PCAKuhner等人(2019)
鼻咽癌检测SERS共聚焦拉曼微光谱仪PCA,LDAFeng等人(2010)
体液鉴定SPRSPRi设备PCAStravers等人(2019)
NT-proBNP免疫分析光子晶体增强荧光PCA,PLSR,SVMSquire等人(2019)
医用化学品基于噬菌体的比色传感多阵列传感器系统HCAKim等人(2020)
VOCs荧光传感交叉响应传感器阵列HCALei等人(2015)
邻苯二酚和氢醌分光光度法注射流体管束ANNBoroumand等人(2019)
生理监测物理和生物化学传感皮肤友好的电子设备ANNZhang和Tao(2019)
血糖酶传感触觉镜片神经网络Quan等人(2019)
蛋白质生物标志物微泡测定法智能手机摄像头CNNRavi等人(2017)
酶(蛋白质)纳米立方空间Si基板DTsKatsuhiko(2019)

  • 29
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卿云阁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值