图像描述生成笔记:Show and Tell: A Neural Image Caption Generator,2015年由谷歌团队创作,发布于年 IEEE 计算机视觉和模式识别会议CVPR

文章介绍了ImageCaption任务,即让机器从图片生成描述,这需要理解物体和关系。它基于编码解码模型,使用CNN提取图像特征,LSTM进行解码生成文本。NIC模型通过结合CNN和LSTM提高了性能,实验显示在多项评价指标上优于当时其他方法。
摘要由CSDN通过智能技术生成

这篇论文是Image Caption领域的开山之作,而我写的这篇笔记也是我在知乎创作的开端。

Image Caption,是指从图片中自动生成一段描述性文字。要求机器不仅能检测出图像中的物体,而且要理解物体之间的相互关系,最后还要用合理的语言表达出来。对人来说,这项任务so easy,但是对机器来说,这就是极具挑战性了。

首先介绍一下机器翻译中的编码解码模型,因为图像描述的基础是机器翻译带来的灵感。在最原始的RNN结构中,输入序列和输出序列必须是严格等长的。但在机器翻译等任务中,源语言句子的长度和目标语言句子的长度往往不同,因此我们需要将原始序列映射为一个不同长度的序列。Encoder-Decoder模型可以解决长度不一致的映射问题。话不多说,上图:

编辑切换为全宽

编码解码模型图

w1-wn是输入单词序列,y1-yn是输出单词序列,他们都是经过独热编码的单词向量,大小为1×D,D是程序中使用单词表的长度。h1-hn为RNN的隐层状态(hidden state)。x1-xn是w1-wn经过转换后得到相对应的词向量(word embedding)。Encoder部分,输入单词序列转换为词向量后输入RNN,然后RNN将所有的输入“编码”成一个固定的向量表示,即最后一个隐层状态 hn,其包含了原始输入中所有有效的信息,Decoder在每一步都会利用 hn进行“解码”,并输出合适的单词序列。

编辑切换为全宽

NIC模型

本文提出NIC模型,他是一个由CNN和RNN组成的端到端的神经网络,将原来的Encoder RNN换成图像中使用的CNN结构,为图像提取一个“视觉特征”I,然后将Decode RNN换成了性能更好的LSTM,将I解码为输出序列。该模型的终极目的是最大化给定图片生成正确描述的概率:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰岛小贤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值