目录
一、论文介绍
这篇论文提出的是一种基于GAN的全自动彩色化方法。图像彩色化任务中,大多数的方法将彩色化作为像素级回归任务,通过大规模的训练数据和端到端的学习模型,可以学习到颜色分布先验,但这带来了多模态的问题。除此之外,渗色(color bleeding)也是彩色化问题中的一个常见问题。
作者针对这两个问题,提出论文中的方法:提出了着色框架PalGAN来避免逐像素建模导致的多模态问题;在框架中加入一个颜色注意力模块,将高级语义信息与局部细节结合,减少渗色效果。同时加入了调色板概率预测,使得该方法无需外界指导且能够提供更加准确、更加具有指导性的信息。关键思想是首先从灰度图像预测全局调色板概率,在GAN框架中,以灰度图像和调色板概率为输入进行建模,最终预测出一张彩色化图像。该方法预测的效果图如下图所示,展示了比较生动的结果。
二、网络结构
论文提出的方法首先使用卷积神经网络预测出直方图形式的调色板概率,其后是一个GAN模型,使用生成器生成颜色特征图,然后通过生成器判别生成器生成的结果是否真实。
三、具体细节
1.调色板预测
(1) τ E \tau_{E} τE生成调色板直方图 h ^ \widehat{\mathbf{h}} h
输入:灰度图像
L
∈
R
H
×
W
×
1
\mathbf{L} \in \mathbb{R}^{H \times W \times 1}
L∈RH×W×1
输出:直方图形式的调色板概率
h
^
∈
R
N
a
×
N
b
×
1
\widehat{\mathbf{h}}\in \mathbb{R}^{N_{a} \times N_{b} \times 1}
h
∈RNa×Nb×1,其中
N
a
N_{a}
Na,
N
b
N_{b}
Nb是ab轴网格的数目(????)
(2) τ p ^ \tau_{\widehat{\mathbf{p}}} τp 生成空间特征直方图 S S S
输入:灰度图像
L
∈
R
H
×
W
×
1
\mathbf{L} \in \mathbb{R}^{H \times W \times 1}
L∈RH×W×1
输出:直方图形式的空间特征
S
S
S
2.调色板分配生成器
输入:直方图形式的调色板概率
h
^
∈
R
N
a
×
N
b
×
1
\widehat{\mathbf{h}}\in \mathbb{R}^{N_{a} \times N_{b} \times 1}
h
∈RNa×Nb×1
输出:预测颜色特征图
C
^
∈
R
H
×
W
×
2
\widehat{\mathbf{C}} \in \mathbb{R}^{H \times W \times 2}
C
∈RH×W×2
输入经过调色板归一化,输入到生成器
G
G
G中,经过几层卷积得到具有颜色信息的特征图
F
F
F,输入到颜色注意力模块中,得到输出
F
+
F
′
F+F'
F+F′,再经过一层卷积得到最终预测的颜色特征图
C
^
\widehat{\mathbf{C}}
C
。
(1) 调色板归一化
首先对
h
^
\widehat{\mathbf{h}}
h
归一化,然后执行由
g
(
h
^
)
g(\widehat{\mathbf{h}})
g(h
)参数化的仿射变换(
g
(
∗
)
g(*)
g(∗)是全连接层)。
该操作是为了增加调色板直方图
h
^
\widehat{\mathbf{h}}
h
与预测的颜色特征图
C
^
\widehat{\mathbf{C}}
C
之间的一致性。
(2) 颜色注意力模块
颜色注意力模块中将全局的语义信息和局部的颜色亲和力加入到颜色关系的构建中,前者由全局交互实现,后者由局部描述实现。
整个模块的输入是空间特征直方图
S
S
S、从调色板预测生成器中得来的高级特征图
F
F
F以及裁剪到与
F
F
F同尺寸的灰度图像
L
L
L。输出是残差特征图
F
′
F'
F′。
- global interaction
全局交互中使用了注意力机制的思想,从输入的空间特征直方图中经过卷积计算出区域特征 S K S^{K} SK、 S Q S^{Q} SQ,并归一化,接下来通过计算它们之间的余弦相似度,通过语义相似度得到权重:
w p q = exp ( w p q ′ ) ∑ k ∈ S exp ( w p k ′ ) where w p q ′ = S p K ⋅ S q Q ∣ S p K ∣ ∣ S q Q ∣ w_{p q}=\frac{\exp \left(w_{p q}^{\prime}\right)}{\sum_{k \in \mathbf{S}} \exp \left(w_{p k}^{\prime}\right)} \quad \text { where } \quad w_{p q}^{\prime}=\frac{\mathbf{S}_{p}^{\mathrm{K}} \cdot \mathbf{S}_{q}^{\mathrm{Q}}}{\left|\mathbf{S}_{p}^{\mathrm{K}}\right|\left|\mathbf{S}_{q}^{\mathrm{Q}}\right|} wpq=∑k∈Sexp(wpk′)exp(wpq′) where wpq′= SpK SqQ SpK⋅SqQ
将权重与特征图 F F F逐区域计算得到具有全局语义信息的特征图 F g F_{g} Fg:
F p g = ∑ q ∈ F w p q F q V \mathbf{F}_{p}^{g}=\sum_{q \in \mathbf{F}} w_{p q} \mathbf{F}_{q}^{\mathrm{V}} Fpg=q∈F∑wpqFqV - local delineration
局部描述中,为了保留纹理和边缘的信息,作者引用了引导滤波的思想。通过对引导图像对线变换,结合局部线性模型,对原始图像进行滤波处理。这样可以学习到局部之间的关系,很好地保留来自引导图像的边缘。CA模块中局部描述引导图像是灰度图像 L L L。
首先学习到两个参数 A 、 B A、B A、B,计算方法是何凯明老师在2010年发表在ECCV的文章《Guided Image Filtering》中提出的:
A = ψ ( c o v ( F , L v a r ( L ) + ϵ ) , B = F ˉ − A ⊙ L ˉ A=\psi (\frac{cov(F,L}{var(L)+\epsilon } ),B=\bar F-A \odot \bar L A=ψ(var(L)+ϵcov(F,L),B=Fˉ−A⊙Lˉ
F ˉ \bar F Fˉ、 L ˉ \bar L Lˉ表示通过均值滤波器的平滑版本。
最后计算出局部特征图 F ′ F' F′:
F l = A ⊙ L ↓ + B F^{l} =A \odot L \downarrow +B Fl=A⊙L↓+B
(3) 调色板优化
将调色板直方图视为a、b上的联合分布,由内核的加权和表示。形式上,颜色直方图被写为:
h
(
a
,
b
)
=
1
Z
∑
x
k
(
C
a
(
x
)
,
C
b
(
x
)
,
a
,
b
)
h(a,b)=\frac{1}{Z} \sum_{x}^{} k(C_{a}(x), C_{b}(x),a,b)
h(a,b)=Z1x∑k(Ca(x),Cb(x),a,b)
(4) 正则化
为了使得预测的颜色多样化,引入调色板正则化,以对抗不平衡的颜色分布所带来的不饱和的颜色。
作者利用概率调色板的熵来控制这种多样性:
E
(
h
^
)
=
−
∑
∣
h
^
∣
i
=
1
h
i
^
l
o
g
h
i
^
E(\widehat{h})=-\sum_{\left | \widehat{h} \right | }^{i=1} \widehat{h_{i} }log \widehat{h_{i}}
E(h
)=−∣h
∣∑i=1hi
loghi
为了提高颜色多样性,可以最大化
E
(
h
^
)
E(\widehat{h})
E(h
)。
3.判别器
输入:颜色特征图
C
^
∈
R
H
×
W
×
2
\widehat{\mathbf{C}} \in \mathbb{R}^{H \times W \times 2}
C
∈RH×W×2和彩色图像
I
=
C
^
+
L
∈
R
H
×
W
×
3
I=\widehat{\mathbf{C}}+L\in \mathbb{R}^{H \times W \times 3}
I=C
+L∈RH×W×3,将
C
^
\widehat C
C
和
I
I
I拼接并转换为一维特征
g
∈
R
256
×
1
g \in \mathbb{R}^{256 \times 1}
g∈R256×1
输出: T or F
输入经过卷积判别器
D
D
D,得到的结果通过内积与调色板融合,计算出最终的真实的概率:
p
(
C
⊕
I
)
=
(
W
g
)
T
h
p(C \oplus I)=(W_{g})^Th
p(C⊕I)=(Wg)Th
四、Ablation Study