【风格迁移-论文笔记12.20】Arbitrary style transfer based on Attention and Covariance-Matching


前言

任意风格迁移(Arbitrary style transfer)具有广阔的应用前景和重要的研究价值,是计算机视觉领域的研究热点。许多研究表明,任意风格迁移取得了显着的成功。然而,现有的方法可能会产生伪影(artifacts),有时会导致内容结构的失真(distortion)。 为此,本文提出一种新颖的模块,名为Attention-wise and Covariance-Matching Module (ACMM),可以在没有伪影的情况下更好地保存内容结构。


一、背景介绍

任意风格迁移(Arbitrary style transfer)的主要任务就是学习目标图像的风格(Style image),将其应用于源图像(Content image),同时保持源图像的内容结构。
主要贡献:
(1)ACMM模块使用全局统计来计算注意图的协方差(covariance),来提升生成图像内容结构的保留,并且消除伪影。
(2)引入histogram loss来进一步提高生成结果的颜色饱和度。
(3)和SOTA方法比较,ACMM效果甚好。

二、相关工作

(1)基于Patch的方法:难以平衡内容结构和风格模式。
(2)基于统计学(statistics)的方法:AdaIN存在扭曲内容(content)和风格细节不足;WCT存在内容失真、扭曲。
(3)继WCT后的方法:忽视了局部风格样式。
(4)基于像素点(pixel-points)均值和标准差匹配的方法:内容结构失真;仅通过一个像素点难以确定语义是否相似;弱化全局特征信息。

三、方法论

网络结构:

损失函数:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、实验

训练过程在单张 NVIDIA A100 GPU 上持续 50k 次迭代。
定性评估:
在这里插入图片描述
在这里插入图片描述
定量评估:
在这里插入图片描述

五、评价指标

(1) LPIPS:LPIPS是一种用于评价图像之间的感知相似性的指标。距离越小越好。
(2)SSIM:(structural similarity)结构相似性,也是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。SSIM取值范围[0,1],值越大(↑),表示图像失真越小.
(3)MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error)。
(4)PSNR:(Peak Signal to Noise Ratio)峰值信噪比,基于对应像素点间的误差评估指标,因此会出现评价结果与人的主观感觉不一致的情况。
在这里插入图片描述
其中,MSE表示当前图像X和参考图像Y的均方误差(Mean Square Error),H、W分别为图像的高度和宽度;n为每像素的比特数,一般取8,即像素灰阶数为256. PSNR的单位是dB,数值越大(↑)表示失真越小。
(5)FID:(Frechet Inception Distance)是计算真实图像和生成图像的特征向量之间距离的一种度量。**分数越低(↓)代表两组图像越相似,**或者说二者的统计量越相似,FID 在最佳情况下的得分为 0.0,表示两组图像相同。


总结

本文ACMM模块有效地缓解风格迁移伪影问题。虽然引入histogram loss损失增强了色彩渲染效果,但是增加了训练时间。以上就是关于这篇论文的主要内容。

  • 35
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值