cs231n 课程作业 Assignment 3

最新推荐文章于 2024-07-07 14:06:00 发布

张小彬的代码人生

最新推荐文章于 2024-07-07 14:06:00 发布

阅读量1.5w

点赞数 11

分类专栏： cs231n 文章标签： cs231n LSTM RNN

本文链接：https://blog.csdn.net/zhangxb35/article/details/70859075

版权

本文总结了cs231n课程的第三次作业，重点讨论RNN和LSTM在图像描述生成（Image Caption）中的应用。作业涉及RNN/LSTM的前向和反向传播实现，词嵌入，以及在训练和预测阶段的不同策略，如Teacher Forcing和Scheduled Sampling。此外，还探讨了LSTM的公式和反向传播，并介绍使用CNN的图像梯度和生成。

摘要由CSDN通过智能技术生成

作业总结

终于来到了最后一次作业，这次主要是讲 RNN 或 LSTM 这个时序模型，感觉如果公式已经熟悉了的话（没有的话多看几遍，也可以参考我上篇博文的公式总结，囧），作业应该比上次的简单。代码量也少一些。在写代码之前要下载一些必要的模型文件，数据集等，可能比上两次麻烦点，具体看 Assignment #3 的说明就好了。

我的作业代码见：cs231n/assignment3.

Image Caption

这次的作业内容是从 Image Caption 这个问题入手，即给定一张图片，生成对图片的文字描述。下图就是 Google NIC 模型的示意图，流程已经很清晰了。大概的做法是这样的，用一个预训练的 CNN 把图片提取特征，然后那这个特征初始化 RNN(LSTM) 的 hidden state，用 RNN(LSTM) 生成一句话。这里的 CNN 主要就是一个 encoder，负责把图片压缩成一个语义向量，而 RNN(LSTM) 则是一个 decoder，也是一个语言模型（language model），负责从这个语义向量解码出自然语言。