基于《Arbitrary Style Transfer with Style-Attentional Networks》的视频风格迁移

最新推荐文章于 2025-02-20 12:10:27 发布

xin3475

最新推荐文章于 2025-02-20 12:10:27 发布

阅读量3.6k

点赞数 1

分类专栏： Image-to-Image translation

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xin3475/article/details/103891546

版权

本文介绍了基于《Arbitrary Style Transfer with Style-Attentional Networks》的视频风格迁移方法，包括SANet的结构、损失函数及其实现细节。通过添加时序和平滑损失，提高视频风格迁移的流畅度，并利用自建数据集进行微调，显著提升了视频风格迁移的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、方法介绍

本文是参照Arbitrary Style Transfer With Style-Attentional Networks[1]中图像风格迁移的方法去实现视频风格迁移。其工作的主要贡献为：

1）提出了SANet去灵活匹配风格特征和内容特征在语义上相近的部分；

2）针对SANet和decoder组成的网络提出了新的损失函数；

3）风格化图像的效率以及质量都很高。

源码：https://github.com/GlebBrykin/SANET

1.1总体结构

图1是论文[1]方法的总体框架。

图1 算法框架

从图1中看出该算法主要由编码器、SANet以及解码器构成。编码器使用的是预训练好的VGG19，用来提取内容图像和风格图像的特征，SANet负责将来自VGG19的Style feature map和Content feature map根据其注意力进行结合，而解码器的网络结构则是与编码器所对称的，可以利用结合后的feature map进行图像的重建，得到的图像即为风格化后的图像。本算法利用了VGG19的Relu4_1和Relu5_1两个网络层输出的特征去进行结合，这是因为只使用Relu4_1可以很好保留风格图像和内容图像的全局结构，但其局部风格显示效果不好。而Relu5_1对其局部风格表现的效果较好，因为其接受域更大。所以利用Relu4_1和Relu5_1输出的特征都利用两个SANet结合后再整合得到最终的风格图像。其效果展示见图2。

图2 不同网络层特征进行风格化的效果对比

1.2 SANet

下面对算法中建立的SANet进行简单的介绍，其网络结构见图3。

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。