- 问题引入
- 现在的任意超分辨率方法使用MLP模型,无法很好的生成高频信息,所以本文提出了一个模型来增加高频信息生成能力,也就是增加超分的细节信息,对应的问题是spectral bias problem;
- 类似于NeRF输入不是直接坐标,而是进行了映射,本文将坐标输入之前也进行了映射;
- 方法:
- 整体概览:包含encoder和本文提出的LTE,LTE输出主频率和对应的傅里叶系数,之后一个MLP利用这些输出来重建任意尺寸的HR,低频信息通过一个跳跃连接加入;
- SR网络: I L R ∈ R H × W × 3 → I H R ∈ R r y H × r x W × 3 I^{LR}\in\mathbb{R}^{H\times W\times 3}\rightarrow I^{HR}\in\mathbb{R}^{r_yH\times r_xW\times 3} ILR∈RH×W×3→IHR∈RryH×rxW×3,之前的任意分辨率超分网络例如LIIF公式 s ( x , I L R ; Θ ) = ∑ j ∈ J w j f θ ( z j , x − x j ) s(x,I^{LR};\Theta)=\sum_{j\in J}w_jf_\theta(z_j,x-x_j) s(x,ILR;Θ)=∑j∈Jwjfθ(zj,x−xj)其中 z = E ψ ( I L R ) z = E_\psi(I^{LR}) z=Eψ(ILR)表示latent vector,输入坐标和latent code输出像素值,最后结果是四个方向插值的结果,本文定义local grid是上式中的 x − x j x-x_j x−xj;
- 本文为了解决spectral bias problem问题,提出LTE网络,将输入坐标在输入MLP之前先映射到傅里叶域,对应的公式 s ( x , I L R ; Θ , ψ ) = ∑ j ∈ J w j f θ ( h ψ ( z j , x − x j ) ) s(x,I^{LR};\Theta,\psi)=\sum_{j\in J}w_jf_\theta(h_\psi(z_j,x-x_j)) s(x,ILR;Θ,ψ)=∑j∈Jwjfθ(hψ(zj,x−xj))
- LTE包含三个部分,amplitude estimator
h
a
(
⋅
)
:
R
C
→
R
2
K
h_a(\cdot):\mathbb{R}^C\rightarrow \mathbb{R}^{2K}
ha(⋅):RC→R2K,frequency estimator
h
f
(
⋅
)
:
R
C
→
R
K
×
2
h_f(\cdot):\mathbb{R}^C\rightarrow \mathbb{R}^{K\times 2}
hf(⋅):RC→RK×2,phase estimator
h
p
(
⋅
)
:
R
2
→
R
K
h_p(\cdot):\mathbb{R}^2\rightarrow \mathbb{R}^{K}
hp(⋅):R2→RK,现有
δ
(
=
x
−
x
j
)
∈
R
2
\delta(=x-x_j)\in\mathbb{R}^2
δ(=x−xj)∈R2,
h
ψ
(
⋅
,
⋅
)
:
(
R
C
,
R
2
)
→
R
2
K
h_\psi(\cdot,\cdot):(\mathbb{R}^C,\mathbb{R}^2)\rightarrow \mathbb{R}^{2K}
hψ(⋅,⋅):(RC,R2)→R2K,计算如下,其中
⊙
\odot
⊙表示的是按元素相乘,得到的结果是estimated frequencies and corresponding Fourier coefficients
- 还加入了scale进公式,
c
c
c表示cell的尺寸,
c
^
=
m
a
x
(
c
,
c
t
r
)
\widehat{c}=max(c,c_{tr})
c
=max(c,ctr),
c
t
r
c_{tr}
ctr是最小cell尺寸: