论文阅读笔记:Recurrent Model of Visual attention(2014Deepmind)

总述:该论文在RNN模型上使用了attention机制来进行图像分类

Model
1.Sensor部分
在每个步骤t,从输入xt中提取感兴趣的部分(给定一个location坐标lt-1周围处提取部分图像信息)
对l更远处的信息采用低分辨率,使图像维度降低
使用glimpse network fg产生向量gt
在这里插入图片描述
三个θg分别是给定一个坐标提取的n个子图下采样后的表达p(xt,lt-1)线性回归后所得;lt-1由fg(θg)线性回归所得;前两个θ总和。
在这里插入图片描述
在这里插入图片描述
2.Internal state
由RNN的隐含单元ht组成,随时间由核心网络更新
在这里插入图片描述
外部输入是gt
3.Action(操作)
有location action 和environment action,前者由位置网络fl(ht, θt)在t时刻的参数化的分布随机所选择(后者类似)(使用softmax函数)
4.Reward
Action后得到一个新的xt和响应信号rt+1,目标是使r总和最大,因为例如rT=1表示在T步之后对象被正确分类,否则为0。
在这里插入图片描述
共有三个网络:Glimpse network, Location network, Core network
(1)Glimpse network:
有两个全连接层,Linear(x) 表示向量x的线性变换,Linear(x)=Wx+b,Rect(x)=max(x,0) 为整流器非线性。输出g=Rect(Linear(hg)+Linear(hl)),其中hg=Rect(Linear(ρ(x,l))),hl=Rect(Linear(l))
hg 和hl的维度为128,文中训练的所有注意模型的维度为256

(2)Location network:
fl(h) = Linear(h) (h为RNN或核心网络)

(3)Core network:
ht = fh(ht-1) = Rect(Linear(ht-1) + Linear(gt))
实验使用了LSTM单元的核心

参考:
1.超详细笔记参考
2.论文网络结构详解
3.Pytorch代码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值