图像标注：图像文本语义对齐

最新推荐文章于 2025-03-06 23:30:00 发布

yang_live

最新推荐文章于 2025-03-06 23:30:00 发布

阅读量6.3k

点赞数 1

文章标签：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang_live/article/details/107309277

版权

1）没有标签的图像语义如何提取
2）端到端的对齐过程如何构建，具体损失函数是什么
3）attention如何加入，双端反馈如何建立联系，attention训练过程的损失函数是什么

1: Karpathy A, Fei-Fei L. Deep Visual-Semantic Alignments for Generating Image Descriptions.
IEEE Trans Pattern Anal Mach Intell. 2017 Apr;39(4):664-676.
面向图像自动语句标注的注意力反馈模型

摘要

这篇文章的作者提出了一种方法，可以用于生成图像的自然语言描述。
主要包含了两个部分：
（1）视觉语义的对齐模型；
（2）为新图像生成文本描述的 Multimodal RNN 模型。

其中视觉语义的对齐模型主要由3部分组成：

应用于图像区域的卷积神经网络（Convolution Neural Networks）。
应用于语句的双向循环神经网络（bidirectional Recurrent Neural Networks）。
结构化的目标函数，通过多模态嵌入来对齐视觉与语义。

概述

图片的描述语句通常仅提到“有什么”，而不知道“在哪里”，所以作者提出将 imgae caption 数据集的描述语句看作弱标签（weak labels），这些语句中有一些单词，对应了图片中一些特殊但位置未知的物体，那么我们就想如何 “对齐” 这些单词和物体（就像做连线题一样），然后再学习如何生成描述。

图像数据和其对应的语句描述作为模型的输入（左图）
模型学习推理子图像区域和其对应的语句片段（中图）
最后模型学习为图像生成一些描述语句（右图）
第一个模型对齐模型是第二个模型生成模型的准备工作，第二个模型在第一个模型推测出的对应关系上进行训练。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。