论文阅读笔记：Recurrent Model of Visual attention（2014Deepmind）

最新推荐文章于 2022-08-10 11:40:10 发布

芍子zi

最新推荐文章于 2022-08-10 11:40:10 发布

阅读量338

点赞数

分类专栏：论文阅读笔记文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/weixin_45440065/article/details/105289831

版权

论文阅读笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

总述：该论文在RNN模型上使用了attention机制来进行图像分类

Model
1.Sensor部分
在每个步骤t，从输入xt中提取感兴趣的部分（给定一个location坐标lt-1周围处提取部分图像信息）
对l更远处的信息采用低分辨率，使图像维度降低
使用glimpse network fg产生向量gt
在这里插入图片描述
三个θg分别是给定一个坐标提取的n个子图下采样后的表达p(xt,lt-1)线性回归后所得；lt-1由fg(θg)线性回归所得；前两个θ总和。

2.Internal state
由RNN的隐含单元ht组成，随时间由核心网络更新

外部输入是gt
3.Action（操作）
有location action 和environment action，前者由位置网络fl(ht, θt)在t时刻的参数化的分布随机所选择（后者类似）（使用softmax函数）
4.Reward
Action后得到一个新的xt和响应信号rt+1，目标是使r总和最大，因为例如rT=1表示在T步之后对象被正确分类，否则为0。
在这里插入图片描述
共有三个网络：Glimpse network, Location network, Core network
(1)Glimpse network:
有两个全连接层，Linear(x) 表示向量x的线性变换，Linear(x)=Wx+b，Rect(x)=max(x,0) 为整流器非线性。输出g=Rect(Linear(hg)+Linear(hl))，其中hg=Rect(Linear(ρ(x,l)))，hl=Rect(Linear(l))
hg 和hl的维度为128，文中训练的所有注意模型的维度为256

(2)Location network:
fl(h) = Linear(h) (h为RNN或核心网络)

(3)Core network:
ht = fh(ht-1) = Rect(Linear(ht-1) + Linear(gt))
实验使用了LSTM单元的核心

参考：
1.超详细笔记参考
2.论文网络结构详解
3.Pytorch代码

芍子zi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读笔记：Recurrent Model of Visual attention（2014Deepmind）

总述：该论文在RNN模型上使用了attention机制来进行图像分类Model1.Sensor部分在每个步骤t，从输入xt中提取感兴趣的部分（给定一个location坐标lt-1周围处提取部分图像信息）对l更远处的信息采用低分辨率，使图像维度降低使用glimpse network fg产生向量gt三个θg分别是给定一个坐标提取的n个子图下采样后的表达p(xt,lt-1)线性回归后所得...
复制链接

扫一扫