基于模型的深度学习

最新推荐文章于 2023-07-19 10:47:57 发布

小蜗子

最新推荐文章于 2023-07-19 10:47:57 发布

阅读量1k

点赞数 1

分类专栏：研究方向文章标签：深度学习人工智能 python

本文链接：https://blog.csdn.net/weixin_44466434/article/details/126473322

版权

研究方向专栏收录该内容

23 篇文章 5 订阅

订阅专栏

摘要

信号处理、通信和控制传统上依赖于经典的统计建模技术。这种基于模型的方法利用数学公式来表示潜在的物理、先验信息和额外的领域知识。简单的经典模型是有用的，但对不准确性敏感，并可能导致较差的性能，当真实系统显示复杂或动态行为。另一方面，随着数据集变得丰富和现代深度学习管道的能力增强，纯数据驱动的模型不可知方法正变得越来越流行。深度神经网络(DNNs)使用通用架构，学习从数据中操作，并展示了优秀的性能，特别是在监督问题。然而，dnn通常需要大量的数据和巨大的计算资源，限制了其在某些信号处理场景的适用性。

在本文中，我们概述了研究和设计基于模型的深度学习系统的主要方法。这些方法将有原则的数学模型与数据驱动系统结合起来，从而受益于两种方法的优点。这种基于模型的深度学习方法利用了部分领域知识，通过为特定问题设计的数学结构，以及从有限的数据中学习。我们全面回顾了将基于模型的算法与深度学习系统结合的主要方法，并从最近的文献中提供了具体指南和详细的信号处理实例。在我们的基于模型的深度学习示例中详细介绍的应用包括压缩感知、数字通信和状态空间模型中的跟踪。我们的目标是促进信号处理和机器学习交叉领域的未来系统的设计和研究，融合这两个领域的优势

1.介绍

传统的信号处理以基于简单数学模型的算法为主，这些算法是根据领域知识手工设计的。这些知识可以来自基于测量和理解基础物理的统计模型，或者来自手头特定问题的固定确定性表示。这些基于领域知识的处理算法，我们今后将其称为基于模型的方法，基于与手头观察和所需信息相关的底层模型的知识进行推理。基于模型的方法不依赖于数据来了解它们的映射，尽管数据经常用于估计少量参数。基本技术如卡尔曼滤波和消息传递算法属于基于模型的方法。经典统计模型依赖于简化的假设(如线性系统、高斯和独立噪声等)，这些假设使模型易于处理、理解和计算效率高。另一方面，简单的模型往往不能代表高维复杂数据和动态变化的细微差别。

深度学习(如视觉[1]，[2]以及围棋[3]和星际争霸[4]等具有挑战性的游戏)的巨大成功，开创了一种普遍的数据驱动思维模式。目前流行的做法是用纯粹的数据驱动管道取代简单的原则性模型，这些管道用大量标记数据集进行训练。特别是，深度神经网络(DNNs)可以在监督的方式训练端到端，将输入映射到预测。与基于模型的方法相比，数据驱动方法有两方面的好处:首先，纯数据驱动技术不依赖于分析近似，因此可以在分析模型未知的情况下操作。其次，对于复杂系统，数据驱动算法能够从观测数据中恢复特征，从而进行推理[5]。这有时很难通过分析来实现，即使复杂的模型是完全已知的。

训练和利用高度参数化的dnn的计算负担，以及训练此类dnn学习所需映射通常需要大量数据集的事实，可能构成各种信号处理、通信和控制应用的主要缺陷这与硬件有限的设备尤其相关，如手机、无人机和物联网(IOT)系统，这些设备利用高度参数化的DNNs[6]的能力往往有限，需要适应动态条件。此外，dnn通常被用作黑盒;了解他们的预测是如何获得的，并描述置信区间往往是相当具有挑战性的。因此，深度学习还不能提供基于模型的方法[7]的可解释性、灵活性、通用性和可靠性。

基于模型的方法和黑盒深度学习系统的局限性催生了大量结合信号处理和机器学习的技术，从而受益于这两种方法。这些方法都是应用驱动的，因此都是针对具体任务进行设计和研究的。例如，研究表明，结合DNNs和基于模型的压缩感知(CS)恢复算法，可以促进[8]、[9]的稀疏恢复，并使CS超越稀疏信号[10]、[11]的范围;利用深度学习对正则化优化方法[12]、[13]赋能，利用基于模型的优化方法设计用于此类任务的dnn [14];数字通信接收机利用dnn学习以数据驱动的方式进行和增强符号检测和解码算法[15]-[17]，而符号恢复方法使模型感知深度接收机[18]-[21]的设计成为可能。基于模型/数据驱动的混合系统的激增，每个系统都为一个独特的任务设计，推动建立一个具体的系统框架，以基于模型的方法和深度学习的形式结合领域知识，这是本文的重点。

在本文中，我们回顾了设计系统的主要策略，这些系统的操作通过基于模型的深度学习以教程的方式结合了领域知识和数据。为了达到这个目的，我们提出了一个统一的框架来研究基于模型/数据驱动的混合系统，而不是专注于一个特定的应用，同时面向信号处理文献中通常研究的问题家族。该框架将基于模型的信号处理和深度学习相结合的系统分为两种主要策略:第一类包括dnn，其架构专门用于使用基于模型的方法解决特定问题，这里称为模型辅助网络。第二种，我们称之为dnn辅助推理，它由一种基于模型的算法进行推理，该算法的操作通过深度学习工具进行扩充。这种与模型无关的深度学习工具的集成允许用户在只访问部分领域知识的情况下使用基于模型的推理算法。在此基础上，我们为基于模型的深度学习系统的研究、设计和比较提供了具体指导。图1描述了类别和子类别的拟议划分。

我们从讨论基于模型、数据驱动和混合模式的高级概念开始。由于我们关注dnn作为当前领先的数据驱动技术，我们简要回顾了深度学习的基本概念，确保教程对没有深度学习背景的读者也可以访问。然后，我们详细阐述了将基于模型的方法与深度学习相结合的基本策略。对于每个这样的策略，我们以系统的方式提出了一些具体的实现方法，包括已建立的方法，如深度展开，这最初是由Gregor和LeCun在2010年提出的[8]，以及最近提出的基于模型的深度学习范式，如dnn辅助推理[22]和神经增强[23]。

对于每一种方法，我们为给定的问题制定系统设计指南;从最近的文献中提供详细的例子;并讨论其属性和用例。我们的每个详细示例都集中在信号处理、通信和控制中的不同应用上，展示了可以从这种混合设计中受益的应用的广度和多样性。最后，我们对基于模型的深度学习方法进行了总结和定性比较，并描述了一些未来的研究主题和挑战。我们的目标是鼓励未来具有信号处理背景的研究人员和从业者研究和设计基于模型的深度学习。

这篇概述性文章关注于设计架构的策略，其操作结合了深度学习和基于模型的方法，如图1所示。这些策略还可以集成到现有的机制中，以便在选择应用数据驱动系统的任务时，以及在生成和操作数据时，结合基于模型的领域知识。使用基于模型的知识来选择应用程序和数据的一组这样的机制的一个例子是学习优化框架，这是在无线网络设计背景下日益受到关注的焦点[24]- [26];该框架主张使用预先训练的dnn来实现复杂优化问题的快速求解器，这些问题依赖于基于领域知识制定的目标和约束，同时使用基于模型的生成数据进行离线训练。另一个相关的家族是信道自编码器，它将随机通信信道的数学建模集成为深度自编码器层，设计信道编码[27]、[28]和压缩机制[29]。

本文其余部分的组织如下:第二节讨论了基于模型的方法与数据驱动方案的比较，以及它们如何产生基于模型的深度学习范式。第三节回顾了深度学习的一些基础知识。设计基于模型的深度学习系统的主要策略，即模型辅助网络和dnn辅助推理，分别在第IV-V节详细介绍。最后，我们在第六部分进行了总结，并讨论了一些未来的研究挑战。

2.基于模型和数据驱动的推理

我们首先回顾基于模型的推理和数据驱动的推理之间的主要概念区别。为了达到这个目的，我们首先提出一个一般推理问题的数学公式。然后，我们讨论如何从纯基于模型的角度以及纯数据驱动的角度来解决这个问题，对于后者，我们将重点放在深度学习作为一系列通用的数据驱动方法。然后，我们根据这些不同的策略制定了基于模型的深度学习的概念。

2.1推理系统

推理一词指的是基于证据和推理得出结论的能力。虽然这个通用的定义可以涉及广泛的任务，但我们的描述集中在基于一组观察变量估计或做出预测的系统上。在这个广泛的问题系列中，系统需要将一个输入变量x∈X映射到一个标签变量s∈S的预测，记为ˆs，其中x和s分别称为输入空间和标签空间。因此，推理规则可以表示为f: x→S，推理映射空间用f表示。我们用l(·)表示定义在f × X × S上的成本测度，由具体任务指示。一个推理映射的保真度是由风险函数来衡量的，也被称为泛化误差，由Ex,s ~ px,s{l(f, x,s)}给出，其中px,s是与输入和标签相关的基础统计模型。基于模型的方法和数据驱动方案的目标都是设计推理规则f(·)，使给定问题的风险最小化。这些策略之间的主要区别是使用什么信息来调优f(·)。

2.2基于模型的方法

基于模型的算法，也称为手工设计方法，基于领域知识设置推理规则，即调f (1)以最小化风险函数。术语领域知识通常指的是与输入x和标签s相关的基础统计的先验知识。特别是，需要一个描述基础模型的解析数学表达式，即px,s。基于模型的算法可以实现风险最小化推理映射，如最大后验概率(MAP)规则。虽然计算风险最小化规则通常在计算上是禁止的，各种基于模型的方法在可控制的复杂性近似这一规则，在某些情况下也证明接近其性能。这通常是通过使用由多个阶段组成的迭代方法实现的，其中每个阶段涉及一般的数学操作和特定于模型的计算。

基于模型的方法不依赖于数据来学习它们的映射，如图2的右边部分所示，尽管数据经常被用来估计未知的模型参数。在实践中，关于观察结果和所需资料的统计模型的准确知识通常是无法获得的，因此，应用这种技术通常需要对基础统计数据施加一些假设，这些假设在某些情况下反映了实际行为，但也可能构成真实动态的粗略近似。在不准确的模型知识存在的情况下，要么是由于估计错误，要么是由于实施的模型没有完全捕获环境，基于模型的技术的性能趋于下降。这限制了基于模型的方案在某些情况下的适用性，例如，px,s是未知的，精确估计成本高，或过于复杂而无法分析地表达。

2.3数据驱动方案

数据驱动系统从数据中学习它们的映射。在监督设置中，数据由nt对输入及其对应标签组成的训练集组成，记为{(xt, st)}ntt=1。数据驱动方案无法访问底层分布，因此无法计算风险函数。因此，推理映射通常是基于经验风险函数调优的，今后称为损失函数，对于推理映射f是由

由于人们通常可以通过记忆数据形成一个推理规则，使经验损失最小化(2)，即过拟合，数据驱动的方案经常限制可行推理规则的领域[30,Ch. 2]。深度学习所基于的数据驱动系统的一个领先策略是，在(1)的映射上假设一些高度表达的通用参数模型，同时结合优化机制来避免过拟合，并允许产生的系统使用新数据样本进行可靠的推断。在这种情况下，推理规则由一组表示为θ的参数决定，因此系统映射被写成fθ。

传统的深度学习应用使用DNN架构实现fθ，其中θ代表网络的权值。这种高度参数化的网络可以有效地逼近任何波莱尔可测映射，根据普适逼近定理。因此，通过使用足够的训练数据适当地调整它们的参数，正如我们在第三节中阐述的那样，人们应该能够获得理想的推理规则。

与基于模型的算法(专门针对给定场景定制)不同，纯数据驱动的方法是模型不可知的，如图2左侧所示。特定场景的独特特征被封装在学习到的权重中。参数化推理规则，如DNN映射，是通用的，可以应用于广泛的不同问题。虽然标准的DNN结构是高度模型不可知的，通常被视为黑盒，但人们仍然可以在特定网络架构的选择中纳入一些领域知识。

例如，当已知输入具有时间相关性时，基于循环神经网络(RNNs)[33]或注意机制[34]的架构通常是首选。或者，在存在空间模式时，可以利用卷积层[35]。将领域知识合并到黑匣子DNN的另一种方法是通过预处理输入，例如，特征提取。数据驱动策略的普遍性导致了一些缺陷。一般来说，学习大量的参数需要大量的数据集进行训练。即使有足够大的数据集可用，由此产生的训练过程通常也是冗长的，并涉及较高的计算负担。最后，由此产生的映射的黑盒特性意味着数据驱动的系统通常缺乏可解释性，这使得提供性能保证和对系统操作的洞察变得困难。

2.4基于模型的深度学习

将现有文献完全分为基于模型和数据驱动是一项艰巨的、主观的和有争议的任务。相反，我们专注于一些明显处于中间地带的方法，以提供一个有用的景观概述。考虑到的方法家族以一种基于模型的算法的形式纳入领域知识，该算法适合手头的问题，同时结合了通过深度学习技术从数据中学习的能力。

基于模型的深度学习方案因此可以基于两种数据来调整输入x的映射，例如，标记训练集{(xt, st)}ntt=1，以及一些领域知识，例如底层分布的部分知识px,s。与纯粹的模型不可知的dnn相比，这种混合数据驱动的模型感知系统通常可以从较小的训练集学习它们的映射，并且通常在操作时不完全准确地了解基于模型的方法所基于的底层模型。

基于混合模型/数据驱动的推理规则研究和设计技术可以分为两种主要策略，如图2所示。正如我们在续集中所展示的，这些策略可能会被进一步专门用于各种不同的任务。这两种网络中的第一种，我们称之为模型辅助网络，利用dnn进行推理;然而，这里不是使用传统的DNN架构，而是通过遵循适当的基于模型的方法来设计针对当前问题的特定DNN。第二种策略，我们称之为dnn辅助推理系统，使用传统的基于模型的方法进行推理;然而，与纯粹基于模型的方案不同，这里基于模型的算法的特定部分通过深度学习工具进行了增强，允许生成的系统实现算法，同时学习克服来自数据的部分或不匹配的领域知识。由于这两种策略都依赖于深度学习工具，我们首先在以下部分简要概述了深度学习的关键概念，之后我们分别在第四和第五部分阐述了模型辅助网络和dnn辅助推理。