论文笔记:Image Captioning with Semantic Attention

论文地址
论文代码地址

现有的图像描述方法要么是自顶向下,从图像的要点开始并将其转换为单词,这类方法很难注意细节;要么是自底向上,提出描述图像各个方面的单词,然后将它们组合起来,这类方法从独立的方面形成句子,缺少端到端形式的训练。人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象, 因此本文提出了一种新算法,通过语义注意模型将两种方法结合起来,该算法学习选择性地关注语义概念提议(semantic concept proposals)并将它们融合到循环神经网络的隐藏状态和输出中,选择融合形成了连接自顶向下和自底向上计算的反馈。

模型架构:
请添加图片描述系统的主要工作流程由以下等式控制:
请添加图片描述
首先使用来自分类CNN的中间过滤器的响应来构建全局视觉描述v。CNN的特征只在t=0的时候使用一次,用来初始化x0,为RNN提供图像内容的概述。此外,运行一组属性检测器来获取最有可能出现在图像中的视觉属性或概念列表,每个对应词典中的一个条目。

本文提出了三种不同的获得 attribute 的方法:
1、一种无参数的方法 (k-NN)
我们使用 GoogleNet 得到的feature来评估图像的距离,并使用简单词频(TF)来在检索到的训练图像的ground-truth标题中选择最频繁的单词。通过这种方式,我们可以为每个图像构建一个单词列表,作为检测到的可视属性。

除了检索到的属性外,我们还训练了参数度量模型来提取可视属性。我们首先通过从训练数据的标题中选择最常见的单词来构建一组固定的可视属性。属性被视为一组预定义的类别,可以像传统的分类问题那样学习。

2、有参数模型,trained with ranking-loss (RK)

利用排序损失作为目标函数学习多标签分类器.

3、fully-connected network (FCN).

使用全卷积网络(FCN)从局部中学习attribute。

大佬笔记:
《Image Captioning with Semantic Attention》笔记

论文笔记:Image Captioning with Semantic Attention

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值