论文阅读1：《Coarse-to-Fine Generative Modeling for Graphic Layouts》主题：Layout Generation...

最新推荐文章于 2024-08-31 10:05:51 发布

思念殇千寻

最新推荐文章于 2024-08-31 10:05:51 发布

阅读量475

点赞数 1

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43590796/article/details/125320376

版权

　　写在前面：

　　这一年因为种种原因，博客的更新慢了很多。这学期结束我就是准研二人了，众所周知研二下学期就要论文开题和找校招了，而我现在还没有发出去一篇达到毕业标准的文章。一定要在今年下半年把我的论文投出去啊，希望能中一个等级较高的会议或者期刊，因为也是付出了不少努力的。

　　但是论文在真正动笔的时候才发现自己肚里没有墨水，有人觉得搞科研，写论文最简单，就是写八股文。但是对于我这种第一次写英文论文的人，还是迫切需要论文写作水平提高的。因此我准备在自己的小博客上积累一些论文的阅读笔记，我不仅会像一般的论文分享那样记录作者的idea，还会摘录一些我认为写的非常有启发性的地方，再一个我会细心记录文章的cite，因为能在论文里面旁征博引是非常难的我觉得。做到以上这几点不容易，因此我决定一天只积累一篇paper，就像每天晚上跑步一样坚持下去。

　　Background

　　Even though graphic layout generation has attracted growing attention recently, it is still challenging to synthesis realistic and diverse layouts, due to the complicated element relation- ships and varied element arrangements.

　　尽管集合布局的生成已经越来越吸引人，但是它仍然是一个非常有挑战性的任务。

　　Motivation

　　一般的研究动机是别人的算法有缺陷，我们的新方法能够解决这个问题。但是这篇文章没有踩别人的工作，只是客观描述了一下研究现状：1. 之前的方法都是一段式的 2. 近期的方法有的利用上了Transformer，古早的方法using heuristic-based labels for element relationships and handling a limited number of elements.

　　Contribution

　　作者选取VAE作为模型的基础，并且把生成一个Layout分成了两步：1. 把布局划分成若干个小region 2. 在每个region里面摆放elements。作者认为这么做有两个好处：1. 分而治之，大大降低生成复杂布局的难度。2. 作者认为他们的第一个阶段，也就是划分区域的阶段能够作为一种全局的上下文信息辅助布局生成。

　　Related Works

　　LayoutGAN (Li et al. 2019)：proposes a wireframe rendering layer to capture the alignment characteristic of graphic layouts.

　　NDN (Lee et al. 2020) leverages Graph Convolution Networks (GCNs (Scarselli et al. 2008; Kipf and Welling 2016)) to learn the layout representation，where the labels of relationships are based on heuristics

　　Similarly, READ (Patil et al. 2020) also uses heuristics to determine relationships between elements and then leverage Recursive Neural Networks (RvNNs (Goller and Kuchler 1996)) for layout generation.

　　这个地方踩了一下LayoutGAN和NDN，说他们的工作不讲道理地限制了elements的个数。(但是我怀疑本文的模型连控制结果中有几个元素都做不到，接着看吧...)

　　然后踩了一下NDN和READ，说他们的算法使用了启发式的标签，NDN and READ use heuristic-based labels, which are difficult to model element relationships comprehensively and objectively. 我不知道这个地方的具体含义是什么。

　　VTN (Arroyo, Postels, and Tombari 2021) and (Gupta et al. 2020) propose leveraging Transformer (Vaswani et al. 2017) to handle arbi- trary number of elements and discover element relationships without heuristic-based labels.

　　以上是unconditional方法

　　Kikuchi et al. (CLG-LO) formulate the layout generation as a constraint optimization problem to satisfy implicit and explicit constraints specified by users.

　　Moreover, a recent study leverages multi-modal set of attributes for canvas and elements to help layout generation (Yamaguchi 2021). Yamaguchi, K. 2021. CanvasVAE: Learning to Gen- erate Vector Graphic Documents. 即 CanvasVAE

　　Zheng et al. studies generating layouts conditioned on visual and textual semantics of the user input. Content-aware generative modeling of graphic design layouts.

　　以上是conditional方法，这个分类是对的，作者专注的是unconditional的方法。　　

　　Approach　　

　　网络架构如下图所示：

　　图画的其实非常清晰了，一个大的框架加上底下的模块都画了出来。解码是一个自回归的style。具体的实现细节还是请读者自己到论文里面去看，比较常规，这里不再赘述。

　　Results

　　和VTN相比确实提了指标，但是需要注意的是VTN是一个闭源的项目，所以这些结果实际上是从VTN的论文里面cite到的。

　　我的观点：

　　这篇文章主要的创新点是它将布局生成的过程拆分成了两个部分，因为作者使用了VAE模型，实际上就是在decode的部分划分成了两步。Region一步，Element一步。

　　最亮眼的地方就是他化整为零的这种思想吧，然后确实提升了效果。

　　我认为的不足之处：

　　上面我放了一下，重建和随机生成的结果。还是那个观点吧，你的模型是非条件的，这有一个极大的drawback，你可以重建的非常好(这个并不难)，但是在随机生成的结果里你并不能控制生成的是哪些东西。比如在这个Rico的结果里面，Ours的中间的结果，List item和Text出现了重复的模式，这是autogressive方法的一个特征，其实在真实的数据里面，显然不会出现这样的设计。

　　为什么有上面的drawback就是因为对生成布局的控制度不足，你随机sample一个z，解码出的布局里面有什么元素，有几个元素都没法指定的... 这导致和真实的设计情况相悖，比如一个设计师想要一个布局，布局里面有一个Image，两个Text。结果你的模型生成的结果里面蹦出来一堆Image和Text，这就不能用了啊。