- 文章:
Show and Tell: A Neural Image Caption Generator
- 目的:看图说话,即图片标注
- 实现方式:cnn+lstm
如下图所示:
模型框架:
损失函数:
- 扩展:
lstm是在rnn的基础上进行的改进,主要是为了解决梯度消失的情况,其框架如下图所示:
按照时间序列展开后:
lstm在rnn的基础上添加了遗忘门,输入门,输出门。具体的操作如上图所示。
Show and Tell: A Neural Image Caption Generator