【论文学习】SOLVING INVERSE PROBLEMS IN MEDICAL IMAGING WITH SCORE-BASED GENERATIVE MODELS

前言

好不容易写完了这么长的一篇,整体看来,这篇文章更像是对去噪过程的一个改进。通过在不同时间步引入对应的条件,来控制图像的生成。

文章中所有的译者注中举例都按照从X光复原CT图像这个问题出发,因为导师给的任务是这个。

相关概念

线性逆问题

对于一个未知的信号 x ∈ R n x\in R^n xRn,我们已知 y ∈ R m y\in R^m yRm,则建模为 y = A x + ϵ y=Ax+\epsilon y=Ax+ϵ,其中 A A A为线性算子, ϵ \epsilon ϵ为未知噪音。线性逆问题的求解就是在已知 y y y的情况下求解 x x x的值。如果没有任何更进一步的假设,那么当 m < n m<n m<n的时候,这个问题就是一个不明确的问题。于是我们假设 x x x的采样服从一个先验的概率分布 p ( x ) p(x) p(x),在这个假设下,该问题的 x x x y y y可以由概率分布联系起来 p ( y ∣ x ) = q ϵ ( y − A x ) p(y|x)=q_\epsilon(y-Ax) p(yx)=qϵ(yAx),其中的 q ϵ q_\epsilon qϵ代表了噪音。那么在这个假设下,如果我们已知 p ( x ) p(x) p(x) p ( y ∣ x ) p(y|x) p(yx)我们就可以通过后验分布的方式求解 p ( x ∣ y ) p(x|y) p(xy)

在医学图像中,我们往往重建CT或者MRI。

贝叶斯公式: p ( x ∣ y ) = p ( y ∣ x ) p ( x ) ∫ p ( y ∣ x ) p ( x ) d x p(x|y)=\frac{p(y|x)p(x)}{\int p(y|x)p(x)dx} p(xy)=p(yx)p(x)dxp(yx)p(x)

译者注:因为我们假设有一个先验分布,所以对于任意的CT图像,我们都可以认为是从一个大分布中采样而来,而若这真的是一个线性逆问题,那么A应当是固定的线性算子。于是对于一张X光,我们只需要找到概率最大的CT图像即可。

基于分数的生成模型

对于当我们处理医学图像中的线性逆问题时,我们可以获得的是 y y y p ( y ∣ x ) p(y|x) p(yx),而目标是获取 p ( x ∣ y ) p(x|y) p(xy),我们知道,先验分布 p ( x ) p(x) p(x)显然是未知的,因此我们可以利用一个已有的数据集 { x 1 , x 2 , . . . , x n } ∼ p ( x ) \{x_1,x_2,...,x_n\} \sim p(x) {x1,x2,...,xn}p(x)训练一个生成模型,用以估计 p ( x ) p(x) p(x),如果我们能估计 p ( x ) p(x) p(x)那么根据贝叶斯公式,就可以获得后验概率了。

我们引入最近提出的基于分数的生成模型,其迭代采样过程使得以观测值为条件的可控生成特别容易。尤其是我们使用马尔可夫扩散过程生成噪音并将其采样为目标数据的时候。

在这里插入图片描述

扰动过程

对于一个给定的数据集,我们利用一个时域为[0,1]的随机过程扰动这些数据,这个扰动受到这样一个随机方程控制。 d x t = f ( t ) x t d t + g ( t ) d w t , t ∈ [ 0 , 1 ] (1) dx_t=f(t)x_tdt+g(t)dw_t ,t\in[0,1]\tag{1} dxt=f(t)xtdt+g(t)dwt,t[0,1](1)其中 f ( t ) : [ 0 , 1 ] → R , g : [ 0 , 1 ] → R , { w t ∈ R n } f(t):[0,1]\rightarrow R,g:[0,1]\rightarrow R, \{w_t\in R^n \} f(t):[0,1]R,g:[0,1]R,{wtRn},这是一个标准维纳过程。而 x t {x_t} xt代表了在这个随机过程中随机变量的轨迹。我们可以进一步表示 x t x_t xt的边缘概率为 p ( x t ) p(x_t) p(xt),由此表示从 x 0 x_0 x0 x t x_t xt的分布转换。根据定义,我们明确有 p 0 ( x ) ≡ p ( x ) p_0(x)\equiv p(x) p0(x)p(x),进一步的,我们设置两个函数 f ( t ) f(t) f(t) g ( t ) g(t) g(t)来使得对任意初始化的分布 p 0 ( t ) p_0(t) p0(t)在经过变换后,最终分布 p 1 ( t ) p_1(t) p1(t)都会接近于我们预先定义的噪声分布 π ( x ) \pi (x) π(x)。我们认为转换密度 p 0 t ( x t ∣ x 0 ) p_{0t}(x_t|x_0) p0t(xtx0)总是一个条件线性高斯分布,其形式为 p 0 t ( x t ∣ x 0 ) = ℵ ( x t ∣ α ( t ) x 0 , β 2 ( t ) I ) p_{0t}(x_t|x_0)=\aleph(x_t|\alpha(t)x_0,\beta^2(t)\bold{I}) p0t(xtx0)=(xtα(t)x0,β2(t)I),其中 α : [ 0 , 1 ] → R , β : [ 0 , 1 ] → R \alpha :[0,1]\rightarrow R,\beta :[0,1]\rightarrow R α:[0,1]R,β:[0,1]R能够由 f ( t ) f(t) f(t) g ( t ) g(t) g(t)解析导出。

我们最终发现VE SDEs在我们的实验中表现最好。

逆过程

通过对(1)式求逆,我们从一个噪声取样开始 x 1 ∼ p 1 ( x ) x_1\sim p_1(x) x1p1(x),通过逐渐移除噪声来获得一个数据样本 x 0 ∼ p 0 ( x ) ≡ p ( x ) x_0\sim p_0(x)\equiv p(x) x0p0(x)p(x)。下面我们给到下面公式来实现逆时间SDE d x t = [ f ( t ) x t − g ( t ) 2 ∇ x t l o g p t ( x t ) ] d t + g ( t ) d w t ^ (2) dx_t=[f(t)x_t - g(t)^2\nabla_{x_t}logp_t(x_t)]dt+g(t)d\hat{w_t}\tag{2} dxt=[f(t)xtg(t)2xtlogpt(xt)]dt+g(t)dwt^(2)其中 { w t ^ } \{\hat{w_t}\} {wt^}是逆世界方向的标准维纳过程。 d t dt dt代表了无穷小的负时间步。这个式子中 ∇ x t l o g p t ( x t ) \nabla_{x_t}logp_t(x_t) xtlogpt(xt)就是分数函数 p t ( x t ) p_t(x_t) pt(xt)。通过逆向时间的定义,我们就得知可以由等式(2)的逆随机过程的轨迹。

采样

给定一个来自噪声分布 p 1 p_1 p1的初始样例以及中间时间步的分数 ∇ x l o g p t ( x ) \nabla_xlogp_t(x) xlogpt(x),我们可以模拟(2)式来过去从数据分布 p 0 ( x ) ≡ p ( x ) p_0(x)\equiv p(x) p0(x)p(x)中获取样例数据。在实践中,初始样例大概从 π ( x ) \pi(x) π(x)抽取,且认为 π ( x ) ≈ p 1 ( x ) \pi(x)\approx p_1(x) π(x)p1(x)。并且这些分数是可以由在数据集 { x ( 1 ) , x ( 2 ) . . . , x ( N ) } \{x^{(1)},x^{(2)}...,x^{(N)}\} {x(1),x(2)...,x(N)}训练得到的神经网络 s θ ( x , t ) s_\theta (x,t) sθ(x,t)估计(这个神经网络名为 score model)。通过去噪得分匹配可以求解如下目标 θ ∗ = arg min ⁡ θ 1 N ∑ i = 1 N E t ∼ U [ 0 , 1 ] E x t ( i ) ∼ p 0 t ( x t ( i ) ∣ x ( i ) ) [ ∣ ∣ s θ ( x t ( i ) , t ) − ∇ x t ( i ) l o g p 0 t ( x t ( i ) ∣ x ( i ) ) ∣ ∣ 2 2 ] \theta^*=\argmin_\theta\frac{1}{N}\sum^{N}_{i=1}\mathbb{E}_{t\sim \mathcal{U}[0,1]}\mathbb{E}_{x_t^{(i)}\sim p_{0t}(x_t^{(i)}|x^{(i)})}[||s_\theta(x_t^{(i)},t)-\nabla_{x_t^{(i)}}logp_{0t}(x_t^{(i)}|x^{(i)})||_2^2] θ=θargminN1i=1NEtU[0,1]Ext(i)p0t(xt(i)x(i))[∣∣sθ(xt(i),t)xt(i)logp0t(xt(i)x(i))22]其中 U [ 0 , 1 ] \mathcal{U}[0,1] U[0,1]代表了[0,1]上的均匀分布,去噪分数匹配理论保证了 s θ ∗ ( x , t ) ≈ ∇ x l o g p t ( x ) s_{\theta^*}(x,t)\approx \nabla_xlogp_t(x) sθ(x,t)xlogpt(x)。在训练这个分数模型后,我们将其插入(2)式,求解之得 d x t = [ f ( t ) x t − g ( t ) 2 s θ ∗ ( x t , t ) ] d t + g ( t ) d w t ^ (3) dx_t=[f(t)x_t-g(t)^2s_{\theta^*}(x_t,t)]dt+g(t)d\hat{w_t}\tag{3} dxt=[f(t)xtg(t)2sθ(xt,t)]dt+g(t)dwt^(3)一种采样方式为利用欧拉-丸山数值解法来求解(3)式。
在这里插入图片描述

利用基于分数的生成模型求解逆问题

通过利用基于分数的生成模型,我们可以训练一个打分模型 s θ ∗ ( x , t ) s_{\theta^*}(x,t) sθ(x,t)来从医学图像的先验分布 p ( x ) p(x) p(x)生成无条件采样。然而为了求解逆问题,我们需要从后验概率 p ( x ∣ y ) p(x|y) p(xy)才采样。这一操作可以通过给定条件来实现,给定原始随机过程 { x t } \{x_t\} {xt}以条件 y y y,产生条件随机过程 { x t ∣ y } \{x_t|y\} {xty},我们给出在t时刻的边缘分布 p t ( x t ∣ y ) p_t(x_t|y) pt(xty),我们的目标是从 p 0 ( x 0 ∣ y ) p_0(x_0|y) p0(x0y)采样。我们可以通过求解下式得到 d x t = [ f ( t ) x t − g ( t ) 2 ∇ x t l o g p t ( x t ∣ y ) ] d t + g ( t ) d w t ^ (4) dx_t=[f(t)x_t - g(t)^2\nabla_{x_t}logp_t(x_t|y)]dt+g(t)d\hat{w_t}\tag{4} dxt=[f(t)xtg(t)2xtlogpt(xty)]dt+g(t)dwt^(4)条件分数函数 ∇ x t l o g p t ( x t ∣ y ) \nabla_{x_t}logp_t(x_t|y) xtlogpt(xty)是(4)式的重要部分。然而这计算并不容易。一个解决方案是通过训练一个新的显式依赖于 y y y的得分函数 s θ ∗ ( x t , y , t ) s_{\theta^*}(x_t,y,t) sθ(xt,y,t)来估计分数函数,这样由 s θ ∗ ( x t , y , t ) ≈ ∇ x t l o g p t ( x t ∣ y ) s_{\theta^*}(x_t,y,t)\approx \nabla_{x_t}logp_t(x_t|y) sθ(xt,y,t)xtlogpt(xty),然而这需要成对的训练数据 { ( x i , y i ) } i = 1 N \{(x_i,y_i)\}_{i=1}^N {(xi,yi)}i=1N并且具有与其它监督学习方法相同的缺点。本文中不考虑这种方式。

另一种无监督的替代方式是通过使用一个非条件的打分函数 s θ ∗ ( x t , t ) ≈ ∇ x t l o g p t ( x t ∣ y ) s_{\theta^*}(x_t,t)\approx \nabla_{x_t}logp_t(x_t|y) sθ(xt,t)xtlogpt(xty)和测量分布 p ( y ∣ x ) p(y|x) p(yx)来估计条件分数函数。已有的工作依赖于求解SVD,这对处理医学图像十分困难。而在另外的工作里,一种名叫ALD的采样方式被证明不如更新的采样方式。

因此我们提出一种新的采样方式来求解(吹牛部分省略)。总体来说,我们首先训练一个无条件打分模型 s θ ∗ ( x t , t ) s_{\theta^*}(x_t,t) sθ(xt,t),这一训练过程并不假设任何测量过程。在实验阶段,每给定一个观测 y y y ,我们通过在 y y y上添加合适的噪音构造一个随机过程 { y t } \{y_t\} {yt},此后我们离散化(4)式这个逆时间SDE问题,这一过程利用我们之前提到的 s θ ∗ ( x t , t ) s_{\theta^*}(x_t,t) sθ(xt,t),与此同时将 y y y的信息与附件优化步联合生成。

一种简便的线性测量过程形式

已有的医学图像处理的流程大多包含相同的计算步骤,例如基于Radon变换或基于类似的空间域上的傅里叶变换。为了严格描述这一运算过程,我提出了一种特别的形式的 A A A,使得可以有效的在医疗图像应用中使用。不妨假设线性算子 A A A是满秩的( r a n k ( A ) = min ⁡ ( n , m ) = m rank(\bold{A})=\min(n,m)=m rank(A)=min(n,m)=m),下面的结果将会给出 A A A的另一个形式。

观点1 如果 r a n k ( A ) = m rank(\bold{A})=m rank(A)=m,那么存在一个可逆矩阵 T ∈ R n × n T\in R^{n\times n} TRn×n和对角矩阵 Λ ∈ { 0 , 1 } n × n \Lambda\in \{0,1\}^{n\times n} Λ{0,1}n×n其迹 t r ( Λ ) = m tr(\Lambda)=m tr(Λ)=m,所以有 A = P ( Λ ) T \bold{A}=P(\Lambda)\bold{T} A=P(Λ)T,其中 P ( Λ ) ∈ { 0 , 1 } m × n P(\Lambda)\in \{0,1\}^{m\times n} P(Λ){0,1}m×n是一个维数压缩算子,对任意n维的向量 a ∈ R n a\in \mathbb{R}^n aRn,将其维度压缩到m维,这一性质由某些 i i i Λ i i = 0 \Lambda_{ii}=0 Λii=0保证。

在这里插入图片描述
如图,其实在大多数医学图像处理的过程中,算子 T T T都是相同的,哪怕这些算子都与线性算子 A A A有关。根据前文提到的方法,这个算子有可能是Radon变换,也有可能只是傅里叶变换。直观来看,对角矩阵 d i a g ( Λ ) diag(\Lambda) diag(Λ)可以被视作一种对正弦图或k空间次采样(subsampling)的mask,这使得我们可以将原始的正弦图或k空间变成尺度更小的样本 y y y。除此之外,由于方法已经确定,我们可以很容易求得 T − 1 T^{-1} T1,例如直接采用逆Radon变换或逆傅里叶变换即可。

将给定的观测结果融合进无条件采样过程

接下来,我们将证明,能够从条件随机过程 { x t ∣ y } \{x_t|y\} {xty}中利用一个无条件的打分模型 s θ ∗ ( x , t ) s_{\theta^*}(x,t) sθ(x,t)产生近似样本。基本思想就是通过“劫持”无条件采样过程来使之融合观测条件 y y y

我们已经讨论过,直接求解 { x t ∣ y } \{x_t|y\} {xty}用于样本生成是十分困难的。为了绕过这个问题,我们先考虑一个简单的随机过程情况。让我们回到前文提到的 p 0 t ( x t ∣ x 0 ) = ℵ ( x t ∣ α ( t ) x 0 , β 2 ( t ) I ) p_{0t}(x_t|x_0)=\aleph(x_t|\alpha(t)x_0,\beta^2(t)\bold{I}) p0t(xtx0)=(xtα(t)x0,β2(t)I),其中 α ( t ) \alpha(t) α(t) β ( t ) \beta(t) β(t)可以由 f ( t ) f(t) f(t) g ( t ) g(t) g(t)表示。任给定一个无条件的随机过程 { x t } \{x_t\} {xt},我们定义 { y t } t ∈ [ 0 , 1 ] \{y_t\}_{t\in [0,1]} {yt}t[0,1],其中 y t = A x t + α ( t ) ϵ y_t=Ax_t+\alpha(t)\epsilon yt=Axt+α(t)ϵ。则随机过程 { y t ∣ y } \{y_t|y\} {yty}是不同于 { x t ∣ y } \{x_t|y\} {xty}的,这个随机过程完全可处理。因为首先我们有 y 0 = A x 0 + α ( 0 ) ϵ = A x 0 + ϵ = y y_0=Ax_0+\alpha(0)\epsilon = Ax_0+\epsilon=y y0=Ax0+α(0)ϵ=Ax0+ϵ=y,根据前文提到的 p 0 t ( x t ∣ x 0 ) = ℵ ( x t ∣ α ( t ) x 0 , β 2 ( t ) I ) p_{0t}(x_t|x_0)=\aleph(x_t|\alpha(t)x_0,\beta^2(t)\bold{I}) p0t(xtx0)=(xtα(t)x0,β2(t)I),我们可以得到 x t = α ( t ) x 0 + β ( t ) 2 z , z ∈ R n ∼ ℵ ( 0 , I ) x_t=\alpha(t)x_0 + \beta(t)^2z,z\in \mathbb{R}^n\sim \aleph(0,\bold{I}) xt=α(t)x0+β(t)2z,zRn(0,I)(p.s.这个性质是其实是高斯分布的独立可加性)。

根据定义,我们有 y t = A x t + α ( t ) ϵ = A ( α ( t ) x 0 + β ( t ) 2 z ) + α ( t ) ϵ = α ( t ) ( A x 0 + ϵ ) + β ( t ) 2 A z = α ( t ) y 0 + β ( t ) 2 A z = α ( t ) y + β ( t ) 2 A z y_t=Ax_t+\alpha(t)\epsilon=A(\alpha(t)x_0 + \beta(t)^2z)+\alpha(t)\epsilon=\alpha(t)(Ax_0+\epsilon)+\beta(t)^2Az=\alpha(t)y_0+\beta(t)^2Az=\alpha(t)y+\beta(t)^2Az yt=Axt+α(t)ϵ=A(α(t)x0+β(t)2z)+α(t)ϵ=α(t)(Ax0+ϵ)+β(t)2Az=α(t)y0+β(t)2Az=α(t)y+β(t)2Az,由此我们可以容易得到生成样本的方式 y t ^ ∼ p t ( y t ∣ y ) \hat{y_t}\sim p_t(y_t|y) yt^pt(yty)。即我们首先采样一个随机噪音 z ∼ ℵ ( 0 , I ) z\sim \aleph(0,\bold{I}) z(0,I),然后计算 y t ^ = α ( t ) y + β ( t ) 2 A z \hat{y_t}=\alpha(t)y+\beta(t)^2Az yt^=α(t)y+β(t)2Az

这个方法的核心在于可以用于修饰现存的用于处理无条件随机过程的迭代采样算法,利用我们定义的随机过程 { y t ∣ y } \{y_t|y\} {yty}会使得样本更加一致。总体而言,一个基于分数的生成模型会选择一系列时间步作为其迭代过程 x ^ t i − 1 = h ( x ^ t i , z i , s θ ∗ ( x , t ) ) , i = N , N − 1 , . . . , 1 (5) \hat{x}_{t_{i-1}}=h(\hat{x}_{t_i},z_i,s_{\theta^*}(x,t)), i=N,N-1,...,1\tag{5} x^ti1=h(x^ti,zi,sθ(x,t)),i=N,N1,...,1(5)
其中 x ^ t N ∼ π ( x ) , z i ∼ ℵ ( 0 , I ) \hat{x}_{t_N}\sim \pi(x),z_i\sim \aleph(0, I) x^tNπ(x),zi(0,I)这里的 θ ∗ \theta^* θ是分数模型的参数。下面是该迭代函数的去噪过程,例如对前文提到的算法1,Euler-Maruyama采样的细节为 h ( x ^ t i , z i , s θ ∗ ( x , t ) ) = x ^ t i − f ( t i ) x ^ t i / N + g ( t i ) 2 s θ ∗ ( x ^ i , t i ) / N + g ( t i ) z i / N h(\hat{x}_{t_i},z_i,s_{\theta^*}(x,t))=\hat{x}_{t_i}-f(t_i)\hat{x}_{t_i}/N+g(t_i)^2s_{\theta^*}(\hat{x}_i,t_i)/N+g(t_i)z_i/\sqrt{N} h(x^ti,zi,sθ(x,t))=x^tif(ti)x^ti/N+g(ti)2sθ(x^i,ti)/N+g(ti)zi/N

为了体现根据 { y t ∣ y } \{y_t|y\} {yty}引出的限制,我们在迭代规则(5)式增加了一项 x ^ t i ′ = k ( x ^ t i , y ^ t i , λ ) (6) \hat{x}'_{t_i}=k(\hat{x}_{t_i},\hat{y}_{t_i},\lambda)\tag{6} x^ti=k(x^ti,y^ti,λ)(6) x ^ t i − 1 = h ( x ^ t i ′ , z i , s θ ∗ ( x ^ t i , t i ) ) (7) \hat{x}_{t_{i-1}}=h(\hat{x}'_{t_i},z_i,s_{\theta^*}(\hat{x}_{t_i},t_i))\tag{7} x^ti1=h(x^ti,zi,sθ(x^ti,ti))(7)
其中 x ^ t N ∼ π ( x ) , y ^ t i ∼ p t i ( y t i ∣ y ) \hat{x}_{t_N}\sim \pi(x), \hat{y}_{t_i}\sim p_{t_i}(y_{t_i}|y) x^tNπ(x),y^tipti(ytiy)并且 0 ≤ λ ≤ 1 0\leq \lambda \leq 1 0λ1是超参数。整体的流程如下图3.迭代函数 k ( ⋅ , y ^ t i , λ ) : R n → R n k(\cdot,\hat{y}_{t_i}, \lambda):R^n\rightarrow R^n k(,y^ti,λ):RnRn保证了数据连续性,通过求解最近邻优化步骤,这同时最小化 x ^ t i ′ \hat{x}'_{t_i} x^ti x ^ t i \hat{x}_{t_i} x^ti的间隔和 x ^ t i ′ \hat{x}'_{t_i} x^ti与超平面 { x ∈ R n ∣ A x = y ^ t i } \{x\in \mathbb{R}^n|Ax=\hat{y}_{t_i}\} {xRnAx=y^ti}的间隔。这一优化过程对两者的权衡是由 λ \lambda λ保证的。 x ^ t i ′ = arg min ⁡ z ∈ R n { ( 1 − λ ) ∥ z − x ^ t i ∥ T 2 + min ⁡ u ∈ R n λ ∥ z − u ∥ T 2 } , s . t . A u = y ^ t i (8) \hat{x}'_{t_i}=\argmin_{z\in\mathbb{R}^n}\{(1-\lambda)\|z-\hat{x}_{t_i}\|^2_T + \min_{u\in \mathbb{R}^n}\lambda\|z-u\|_T^2\}, s.t. Au=\hat{y}_{t_i}\tag{8} x^ti=zRnargmin{(1λ)zx^tiT2+uRnminλzuT2},s.t.Au=y^ti(8)

这里我们先回看之前的定义 A = P ( Λ ) T A=P(\Lambda)T A=P(Λ)T,在等式中我们选择用范数 ∥ a ∥ T 2 = ∥ T a ∥ 2 2 \|a\|^2_T=\|Ta\|^2_2 aT2=Ta22来简化理论推导。上面提到的观点1可以让我们得到一个近似形式:

定理1 x ^ t i ′ = T − 1 [ λ Λ P − 1 ( Λ ) y ^ t i + ( 1 − λ ) Λ T x ^ t i + ( I − Λ ) T x ^ t i ] (9) \hat{x}_{t_i}'=T^{-1}[\lambda\Lambda P^{-1}(\Lambda)\hat{y}_{t_i}+(1-\lambda)\Lambda T\hat{x}_{t_i}+(I-\Lambda)T\hat{x}_{t_i}]\tag{9} x^ti=T1[λΛP1(Λ)y^ti+(1λ)ΛTx^ti+(IΛ)Tx^ti](9)
在这里插入图片描述

这里需要注意,根据之前的定义 Λ \Lambda Λ作为一个欠采样的mask,则 P − 1 ( Λ ) P^{-1}(\Lambda) P1(Λ)则是将其恢复为原来的尺寸。

λ = 0 \lambda=0 λ=0时, x ^ t i ′ = k ( x ^ t i , y ^ t i , 0 ) = x ^ t i \hat{x}'_{t_i}=k(\hat{x}_{t_i},\hat{y}_{t_i},0)=\hat{x}_{t_i} x^ti=k(x^ti,y^ti,0)=x^ti,即完全忽略限制条件 A x ^ t i ′ = y ^ t i A\hat{x}'_{t_i}=\hat{y}_{t_i} Ax^ti=y^ti,这种设置下,我们的采样模型实际上就是等式(7)。当我们的测量是有噪声的,我们选择 0 < λ < 1 0<\lambda<1 0<λ<1,来给限制条件一定的松弛度, λ \lambda λ的值在平衡 x ^ t i ′ ≈ x ^ t i \hat{x}'_{t_i}\approx \hat{x}_{t_i} x^tix^ti A x ^ t i ′ ≈ y ^ t i A\hat{x}'_{t_i}\approx\hat{y}_{t_i} Ax^tiy^ti十分重要。实际中,我们在验证集上利用贝叶斯优化自动调整 λ \lambda λ的数值。当我们的衡量过程没有噪声,则可以设定 λ = 1 \lambda=1 λ=1,此时将严格保证 A x ^ t 0 = y A\hat{x}_{t_0}=y Ax^t0=y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值