image caption笔记(三):《Show, Attend and Tell_Neural Image Caption》

一、模型结构

对LSTM部分做出的改动,其余与NIC相同。

                       

                                

与原本的lstm公式相比  多了一个就是attention应 用的结果。

首先 我们给不同位置的特征设置权重  权重的值和为1  这很自然就会想到使用softmax

在每个时刻t,我们都要设置不同位置的权重。在每个时刻,根据前一刻的状态确定当前的权重,权重不同,代表对不同位置的关注度不同。

是第i个位置的图像特征,是softmax归一化之后的t时刻的权重

是一个多层感知器,也就是简单的全连接网络。得到权重以后,

                                                                           

这里的有两种  hard attention 和soft attention  ,因为soft简单,只介绍soft。

 

在得到当前时刻的后,产生概率预测。

是前一个时刻的输出,也就是当前时刻的输入。

 

二、总结

就是在每个时刻的输入图像特征  加了权重  对不同位置的特征 加了不同的关注度。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值