学习目标:
- 深度学习花书
- 一篇论文
学习内容:
- 花书第六章
- StyleSwin: Transformer-based GAN for High-resolution Image Generation
学习时间:
10.3-10.7
学习产出:
StyleSwin
1、什么是StyleSwin?
2、StyleSwin结构
方法:
(1)样式注入方法对比:
(2)双重注意力使用方法
如图所示,将h个注意头分成两组:磁头的前半部分执行常规的窗口注意,而后半部分计算移动的窗口注意,这两个结果进一步连接以形成输出。
计算方法:
WO ∈ RC×C用于混合磁头以输出投影矩阵,head的计算公式为:
WiQ、WiK、WiV∈ RC×(C/h) 分别为第i个头部的查询、键和值投影矩阵。使用双重注意力后,原来64x64分辨率需要8个transformer块,现在只需要4个。
(3)局部-全局位置编码
采样之后,使用如下编码添加特征图
ωk=1/100002k,(i,j)表示二维位置。在每个transformer块中使用SPE提供本地上下文的相对位置,在每个尺度上引入PRE提供全局位置。
3、深度学习花书
学习了深度前馈网络,包括梯度、隐藏单元、架构设计和反向传播。
4、了解了ICCV和CVPR近三年图像生成方面的论文。