论文笔记：Image Captioning with Semantic Attention

最新推荐文章于 2024-01-21 11:22:34 发布

SCUT_JQ

最新推荐文章于 2024-01-21 11:22:34 发布

阅读量1.8k

点赞数

文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44140339/article/details/121769486

版权

论文地址
 论文代码地址

现有的图像描述方法要么是自顶向下，从图像的要点开始并将其转换为单词，这类方法很难注意细节；要么是自底向上，提出描述图像各个方面的单词，然后将它们组合起来，这类方法从独立的方面形成句子，缺少端到端形式的训练。人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象，因此本文提出了一种新算法，通过语义注意模型将两种方法结合起来，该算法学习选择性地关注语义概念提议（semantic concept proposals）并将它们融合到循环神经网络的隐藏状态和输出中，选择和融合形成了连接自顶向下和自底向上计算的反馈。

模型架构：
请添加图片描述 系统的主要工作流程由以下等式控制：

首先使用来自分类CNN的中间过滤器的响应来构建全局视觉描述v。CNN的特征只在t=0的时候使用一次，用来初始化x0，为RNN提供图像内容的概述。此外，运行一组属性检测器来获取最有可能出现在图像中的视觉属性或概念列表，每个对应词典中的一个条目。

本文提出了三种不同的获得 attribute 的方法：
1、一种无参数的方法 (k-NN)
我们使用 GoogleNet 得到的feature来评估图像的距离，并使用简单词频(TF)来在检索到的训练图像的ground-truth标题中选择最频繁的单词。通过这种方式，我们可以为每个图像构建一个单词列表，作为检测到的可视属性。

除了检索到的属性外，我们还训练了参数度量模型来提取可视属性。我们首先通过从训练数据的标题中选择最常见的单词来构建一组固定的可视属性。属性被视为一组预定义的类别，可以像传统的分类问题那样学习。

2、有参数模型，trained with ranking-loss (RK)

利用排序损失作为目标函数学习多标签分类器.

3、fully-connected network (FCN).

使用全卷积网络(FCN)从局部中学习attribute。

大佬笔记：
《Image Captioning with Semantic Attention》笔记

论文笔记：Image Captioning with Semantic Attention

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：Image Captioning with Semantic Attention

论文地址论文代码地址现有的图像描述方法要么是自顶向下，从图像的要点开始并将其转换为单词，这类方法很难注意细节；要么是自底向上，提出描述图像各个方面的单词，然后将它们组合起来，这类方法从独立的方面形成句子，缺少端到端形式的训练。人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象，因此本文提出了一种新算法，通过语义注意模型将两种方法结合起来，该算法学习选择性地关注语义概念提议（semantic concept proposals）并将它们融合到循环神经网络的隐藏状态和输出中，选择和融合形成了连接自
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。