attention model

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zjucor/article/details/78127907

先看下之前用CNN+RNN做Captioning的model,图片经过CNN(包括CONV和FC)后的feature输入到RNN的入口处(RNN仅此一次使用到图片信息),然后用training data中包含的对应的文字信息求出vocabulary的分布,如此即可计算loss来进行training



上面的这个方法有些缺陷,我们希望

1. RNN能多次看图片的信息

2. 每次能focus图片的不同部分


这就有了Attention Model

这时使用的是结果Conv后的特征,因为这时的特征还包含了空间的信息,如果结果fc展开后就失去了空间信息

而且这时候还要计算的是Distribution over L location,及在空间中的分布信息,说白了,就是当前这个word注意的是图片的哪个部分,通过与卷积层的feature进行运算后也作为RNN的输入


而且哪个word注意图片的哪一部分是自己学到的,是unsupervised(training data没有具体标明哪个word应该注意哪个图片part)


Attention还可以用在机器翻译,视频处理等多个领域‘




阅读更多
换一批

没有更多推荐了,返回首页