![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
image caption
月半rai
这个作者很懒,什么都没留下…
展开
-
beam search
假设词表大小为3,内容为a,b,c。beam size是2decoder解码的时候:1: 生成第1个词的时候,选择概率最大的2个词,假设为a,c,概率分别为log(p(1_a)) log(p(1_c))那么当前序列就是a,c,对应的概率是log(p1_0)=log(p(1_a))log(p1_1)= log(p(1_c))2:生成第2个词的时候,假如当前对三个词的概率预测...原创 2018-12-12 20:21:53 · 287 阅读 · 0 评论 -
image caption笔记(五):《Knowing When to Look: Adaptive Attention》
本质上仍然是对attention机制的改进。在每一个时刻,模型决定更依赖图像视觉信息或者语言模型。一、模型结构:(1)对原本的attention机制做改进 原本的attention机制:是第i个位置的图像特征,是softmax归一化之后的t时刻的权重详细看博客《image caption笔记(三):show,attend and tell》原本的attent...原创 2018-09-23 16:56:14 · 941 阅读 · 0 评论 -
image caption笔记(二):《Show and Tell : A Neural Image Caption Generator》
一、基本思想 CNN+RNN CNN用的是VGG16 RNN部分用的是LSTM.换成resnet101效果会更好。二、模型结构 四、代码分析: 首先是训练的部分 (1)准备数据 COCO数据集中的caption最长不能超过16个单词,超出的话只截取前16个。每张图保留5个caption。 根据词频建立词汇库,一般选出...原创 2018-09-12 22:34:48 · 1999 阅读 · 1 评论 -
word2vec
自从 Google 的 Tomas Mikolov 在《Efficient Estimation of Word Representation in Vector Space》提出 Word2Vec,就成为了深度学习在自然语言处理中的基础部件。Word2Vec 的基本思想是把自然语言中的每一个词,表示成一个统一意义统一维度的短向量。至于向量中的每个维度具体是什么意义,没人知道,也无需知道,也许对应...转载 2018-08-24 18:02:45 · 225 阅读 · 0 评论 -
image caption笔记(五):《SCA-CNN》
工作的本质仍然是对attention机制的扩展。之前的《show attend and tell》是在空间上对特征图进行加权。 特征图不同的通道本质上是不同的滤波器提取的特征 ,那么不同的滤波器可能 提取的重点就不一样,可能 第一个滤波器提取的是cake的特征比较多,第二个滤波器提取的person的信息比较多。那么我们是不是应该在这里做一个权重?也就是channel-wise...原创 2018-12-04 15:07:49 · 1607 阅读 · 0 评论 -
RNN梯度消失与梯度爆炸的原因
• 关于RNN结构•关于RNN前向传播•关于RNN反向传播• 解决方法1. 关于RNN结构循环神经网络RNN(Recurrent Neural Network)是用于处理序列数据的一种神经网络,已经在自然语言处理中被广泛应用。下图为经典RNN结构:RNN结构2. 关于RNN前向传播RNN前向传导公式:其中: St : t 时刻...转载 2019-03-29 14:12:45 · 1879 阅读 · 0 评论 -
LSTM反向传播算法
https://zybuluo.com/hanbingtao/note/581764转载 2019-03-30 17:26:32 · 1067 阅读 · 0 评论 -
循环神经网络RNN 梯度推导(BPTT)
https://zhuanlan.zhihu.com/p/32930648https://zhuanlan.zhihu.com/p/26892413转载 2019-03-29 22:31:58 · 1352 阅读 · 0 评论 -
image caption笔记(九):《Unsupervised Image Captioning》
无监督的caption文章使用一个图像数据集(MSCOCO)和一个文本语料库(从Web上抓取的200多万个句子组成图像描述语料库) 来做无监督caption。没有任何配对集合。1、模型结构:提出的图像字幕模型由图像编码器(没有用VGG 和resnet,改用了Inception v4),句子生成器和句子鉴别器组成。训练目标包括了三部分:(1)使用语料库来训练一个CGAN网...原创 2019-04-01 16:51:06 · 2315 阅读 · 1 评论 -
image caption笔记(三):《Show, Attend and Tell_Neural Image Caption》
一、模型结构对LSTM部分做出的改动,其余与NIC相同。 与原本的lstm公式相比 多了一个,就是attention应 用的结果。首先 我们给不同位置的特征设置权重 权重的值和为1 这很自然就会想到使用softmax在每个时刻t,我们都要设置不同位置的权重。在每...原创 2018-10-01 21:58:10 · 1655 阅读 · 0 评论 -
image caption笔记(一):RNN、LSTM和GRU的理解
循环神经网络(Recurrent Neural Network)人类针对每个问题的思考,一般不会是完全的从头开始思考。正如当你阅读这篇译文的时候,你会根据已经阅读过的内容来对后面的内容进行理解,你不会把之前的东西都丢掉从头进行思考,你对内容的理解是贯穿的。传统的神经网络做不到这一点,而这似乎是一个主要的缺点。 例如,假设您想对电影中的每个事件进行分类。我们无法想象传统神经网络如何能够利用前...原创 2018-11-24 20:59:30 · 1586 阅读 · 0 评论 -
COCO数据集介绍
转载自:https://zhuanlan.zhihu.com/p/29393415COCO的 全称是Common Objects in COntext,是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像,其使用了亚马逊的Mechanical Turk(AMT)。比如...转载 2018-12-13 16:38:25 · 12715 阅读 · 2 评论 -
计算语义相似性(DSSM)的三种方法
出处: http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应...转载 2018-12-13 20:24:22 · 1799 阅读 · 0 评论 -
image caption笔记(八):《From Captions to Visual Concepts and Back》
这篇文章是15年微软的工作,是和谷歌《show and tell》同时期的文章,它们都去参加了微软的Image Caption比赛(MS COCO caption challenge),总的结果是并列第一。文章的框架不是我们常见的encoder-decoder类型,但是仍然有启发意义。文章生成caption的思路是(1)给出一幅图像,首先使用视觉检测器提取出图像中可能存在的单词。(...原创 2018-12-10 20:16:54 · 1713 阅读 · 1 评论 -
image caption笔记(七):《Bottom-Up and Top-Down Attention》
仍然是对attention机制的扩展。可以看到,现在的工作,基本都添加了attention机制,要么是spitial attention,要么是semantic attention。 文章的主要贡献包括: (1)提出了一个新的lstm组合模型,包括了attention lstm和language lstm 两个组件。在这个 组合模型的基础上引入spitial at...原创 2018-12-05 20:24:05 · 5289 阅读 · 2 评论 -
image caption笔记(六):《self_critical (scst)》
现在image caption主要存在的问题有:1、exposure bias:模型训练的时候用的是叫“Teacher-Forcing”的方式:输入RNN的上一时刻的单词是来自训练集的ground-truth单词。而在测试的时候依赖的是自己生成的单词,一旦生成得不好就会导致误差的积累,导致后面的单词也生成得不好。2、模型训练的时候用的是cross entropy loss,而evaluat...原创 2018-12-04 16:34:24 · 1507 阅读 · 0 评论 -
image caption笔记(零):前言
image caption的研究沿着三个方向进行: 1、基于模板的方法 基于模板的方法预先定义了句子生成的模板,并将句子分成几部分(如主语、动词和宾语)。对于这样的句子片段,许多文章将每个片段与视觉内容对齐,然后生成图像的句子。显然,它们中的大多数都高度依赖于句子的模板,并且总是产生具有句法结构的句子。 2、基于搜索的方法...原创 2018-12-04 10:18:20 · 394 阅读 · 0 评论 -
image caption笔记(四):《Image Captioning with Semantic Attention》
文章来自cvpr2016 image caption常见的方法包括top-down和bottom-up。Top-down直接做图像到文本的端到端学习,而bottom-up先抽取出一些关键词,再把关键词组合成一句话。Top-down比较难处理一些图像的细节,因为它将整张图片作为输入。而bottom-up不容易做端到端的学习,将抽取的特征组成一句话也很困难。因此文章在端到端...原创 2018-12-03 10:49:39 · 979 阅读 · 0 评论 -
scheduled sampling
当前image caption 存在的四个主要问题:1、指标的提升2、暴露偏差的累积。这个是指预测的时候,前面预测的结果是错的,后面的错得越来越离谱。3、损失函数和评级指标没有直接挂钩。4、只适用于配对的图像和文本。 这篇文章主要用于介绍针对第二个问题的一种解决方法。 序列生成任务的生成目标是在给定源输入的条件下,最大化目标序列的概率。训练时该模型将目标序列中的真实...原创 2018-12-03 10:03:20 · 4102 阅读 · 0 评论 -
image caption笔记(十):一些实现过程中的小细节
1、beam search 一方面可以提升指标,另一方面也可以解决生成的句子不通顺的问题。因此,不管是在训练测试的过程中都要开beamsearch ,对提高指标有帮助。还有就是,如果训练的时候 beam size设置为1,而只是在测试的时候使用beamsearch,原本好的模型可能会变得还不如原本差的模型。也就是,beam size=1下的好的模型 到了beam size=5下未必还能继续好。2...原创 2019-05-09 17:07:16 · 1108 阅读 · 1 评论