写一点看过的论文和code的感悟
首先看一下论文的总体实现:
我觉得这个模型与传统模型主要的两个创新点就是Graph Convolution
和Cascaded Refinement Network
Graph Convolution
按论文上说,他处理scene graph 是通过graph的边来传递信息的,也就是所本来一个单词向量(obj_vecs)
代表graph中的一个节点对象,但是通过图卷积之后每个obj_vecs
包含了所有和它相邻的节点对象的信息(也就是有边相连的节点),这样通过获得的new_obj_vecs用来预测mask和bounding_box时就能较好的区分开来。相对于StackGAN++中直接用一个sentence_vecs预测一张图像就能更好低区分途中的不同对象,使每个对象尽可能的精细。
比如我们有这样一张scene graph: