Image Caption:图像字幕生成

前言

  图像处理与自然语言处理的结合,给图像加字幕或者描述。应用前景非常广,比如早教,图像检索,盲人导航等。图像注释问题的通用解法非常接近于Encoder-Decoder结构,下面就几种方法作简单总结。

m-RNN

  Mao这篇2015-paper,根据输入语句和图片,为图片生成字幕;以DeepRNN 处理语句,用CNN处理图片。基本思路:直接将图像表示和词向量以及隐向量作为多模判断的输入。

  左侧是简单RNN结构,右侧是本文所提的m-RNN(多模式),输入是图片极其对应的语句描述。模型根据之前词和图像来评估下个词的概率分布,每一时间帧上,所有的权重都是共享的。
  两层embedding,分别表示语法和语义含义,初始化方法采用随机初始化足矣,不用专用使用pre-trained的词向量。其中多模式模块有三个输入:词向量 w(t) w ( t ) ,隐状态 r(t) r ( t ) ,图像表示 I I 。隐状态

r ( t ) = R e L U ( U r r ( t 1 ) + w ( t ) )
,注意内部+表示元素加法。将三个输入映射到相同的多模式特征空间内:

m(t)=g2(Vww(t)+Vrr(t)+ViI) m ( t ) = g 2 ( V w w ( t ) + V r r ( t ) + V i I )
,其中 g2(x)=1.7159tanh(2/3x) g 2 ( x ) = 1.7159 t a n h ( 2 / 3 x ) ,这个激活函数能够最大限度的保证梯度集中于非线性范围内,并且加快训练过程。
  关于图像的表示,“For the image representation, here we use the activation of the 7th layer of AlexNet (Krizhevsky et al. (2012)) or 15th layer of VggNet (Simonyan & Zisserman (2014))”。
  优化函数如下:
log2PPL(w1:L|I)=1Ln=1Llog2P(wn|w1:n1,I) l o g 2 P P L ( w 1 : L | I ) = − 1 L ∑ n = 1 L l o g 2 P ( w n | w 1 : n − 1 , I )
PPL(w1:L|I) P P L ( w 1 : L | I )
表示在图像 I I 时,句子 w 1 : L 的混乱度。
C=1Ni=1NsLilog2PPL(w(i)1:Li|I(i)+λθ||θ||22)
  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值