Show and Tell: A Neural Image Caption Generator

最新推荐文章于 2023-03-16 16:48:39 发布

xinxiang7

最新推荐文章于 2023-03-16 16:48:39 发布

阅读量442

点赞数

分类专栏：深度学习文章标签：文章 NIC 深度学习视频动作识别

本文链接：https://blog.csdn.net/xinxiang7/article/details/96998129

版权

深度学习专栏收录该内容

25 篇文章 0 订阅

订阅专栏

[Show and Tell: A Neural Image Caption Generator][https://arxiv.org/pdf/1411.4555v1.pdf]

概要

本文介绍了NIC算法，将CNN与LSTM结合，做了一件什么事呢。就是小学时的看图说话，利用CNN提取图片特征，并作为 $t_{-1}$ 输入LSTM中，将描述性词汇转化为独热编码，利用嵌入模型做为 $S_t$ 输入LSTM中。

公式

最大化似然函数：
$\theta^{\star}=\arg \max _{\theta} \sum_{(I, S)} \log p(S | I ; \theta)$
可能性：
$\log p(S | I)=\sum_{t=0}^{N} \log p\left(S_{t} | I, S_{0}, \ldots, S_{t-1}\right)$
在LSTM中：
$h_{t+1}=f\left(h_{t}, x_{t}\right)$

$\begin{aligned} i_{t} &=\sigma\left(W_{i x} x_{t}+W_{i m} m_{t-1}\right) \\ f_{t} &=\sigma\left(W_{f x} x_{t}+W_{f m} m_{t-1}\right) \\ o_{t} &=\sigma\left(W_{o x} x_{t}+W_{o m} m_{t-1}\right) \\ c_{t} &=f_{t} \odot c_{t-1}+i_{t} \odot h\left(W_{c x} x_{t}+W_{c m} m_{t-1}\right)(7) \\ m_{t} &=o_{t} \odot c_{t} \\ p_{t+1} &=\operatorname{Softmax}\left(m_{t}\right) \end{aligned}$

输入和输出：
$\begin{aligned} x_{-1} &=\mathrm{CNN}(I) \\ x_{t} &=W_{e} S_{t}, \quad t \in\{0 \ldots N-1\} \\ p_{t+1} &=\operatorname{LSTM}\left(x_{t}\right), \quad t \in\{0 \ldots N-1\} \end{aligned}$

网络架构

NIC

xinxiang7

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Show and Tell: A Neural Image Caption Generator

[Show and Tell: A Neural Image Caption Generator][https://arxiv.org/pdf/1411.4555v1.pdf]概要本文介绍了NIC算法，将CNN与LSTM结合，做了一件什么事呢。就是小学时的看图说话，利用CNN提取图片特征，并作为t−1t_{-1}t−1输入LSTM中，将描述性词汇转化为独热编码，利用嵌入模型做为StS_tSt...
复制链接

扫一扫

专栏目录