阅读小结:NIC模型

阅读小结:Show and Tell: A Neural Image Caption Generator

立了人生第二个flag,每周论文,一周至少一篇阅读小结。

人与人的根本区别在于自律能力。

论文阅读遵循彭明辉教授的指导。研一的主要论文阅读目的为解决问题(2A)(2B),即在这个领域最常被引述的方法有哪些?这些方法可以分成哪几个主要派别?
在这里插入图片描述
作者:O. Vinyals, A. Toshev, S. Bengio and D. Erhan
题目:Show and tell: A neural image caption generator
出处:2015,CVPR

What:

1、提出一个生成模型,这个模型可以生成描述图片的自然语句。

2、图片(image)输入CNN,输出再输入生成语言网络RNN,最后得到一个完整的图片描述语句。
在这里插入图片描述
3、LSTM
LSTM在 t t t时刻有两个输入:①当前输入 x t x_{t} xt;②反馈回的 m t − 1 m_{t-1} mt1
t − 1 t-1 t1时刻的输出 m t − 1 m_{t-1} mt1通过三个门反馈给网络。
在这里插入图片描述

4、MODEL
该模型包括encoder-decoder两个部分。其中encoder使用CNN提取特征,CNN可以使用VGGNet、GoogleNet等网络;decoder使用LSTM网络生成句子。

decoder(如图)第一步,输入为经过卷积神经网络提取的图像特征;其后的输入为每个单词的向量表达。对于每个单词首先通过one-hot向量表示,在通过词嵌入模型,变成和图像特征相同维度的向量。
【p.s.】词嵌入模型是NLP中语言模型与表征学习技术的统称。概念上它是指把一个维度为所有词的数量的高维空间,嵌入到一个维数低很多的连续向量空间,每个单词或词组被映射为实数域上的向量。
在这里插入图片描述

How:
1、BLEU-1、BLEU-4、METEOR、CIDE有很高。
在这里插入图片描述
改进之后的NICv2指标更高
在这里插入图片描述


end

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>