COME2023

最新推荐文章于 2024-07-08 18:48:12 发布

桃汽宝

最新推荐文章于 2024-07-08 18:48:12 发布

阅读量193

点赞数

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44317740/article/details/132310680

版权

摘要

文本图像字幕旨在理解图像中的场景文本，以生成图像字幕。该任务的关键挑战是准确、全面地理解场景文本的OCR标记。由于场景文本的视觉和文本特征具有双重模态，准确表达OCR标记的多模态语义特征是一项具有挑战性的任务。此外，由于场景文本不能独立于特定对象而存在，并且总是与其周围环境相关联，因此建立以OCR标记为中心的场景图也是理解其与图像中其他对象关系的重要方法。

本文提出了一种新的文本图像字幕模型Clip-OCR和MasterObjEct。首先，我们介绍了一个CLIP-OCR模块来增强OCR令牌的多模态表示。我们将OCR表示分为视觉项和文本项，并通过对比学习缩小相似性。在CLIP-OCR模块的帮助下，我们实现了不同模态之间的相关性对齐。接下来，我们为每个OCR文本提出了主对象的概念，并用它来净化面向OCR的场景图。主对象被定义为OCR所附着的对象，它连接了OCR标记和图像之间的语义关系。我们将主对象视为连接OCR令牌和图像中其他区域的代理。通过探索每个OCR令牌的主对象，我们在主对象的基础上构建了一个纯化的场景图，然后通过图卷积网络（GCN）丰富了视觉嵌入。此外，我们对OCR令牌进行聚类，并在输入嵌入上附加层次信息，以提供完整的表示。在TextCaps验证集和测试集上的实验证明了所提出的框架的有效性。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
COME2023

接下来，我们为每个OCR文本提出了主对象的概念，并用它来净化面向OCR的场景图。通过探索每个OCR令牌的主对象，我们在主对象的基础上构建了一个纯化的场景图，然后通过图卷积网络（GCN）丰富了视觉嵌入。文本图像字幕旨在理解图像中的场景文本，以生成图像字幕。由于场景文本的视觉和文本特征具有双重模态，准确表达OCR标记的多模态语义特征是一项具有挑战性的任务。此外，由于场景文本不能独立于特定对象而存在，并且总是与其周围环境相关联，因此建立以OCR标记为中心的场景图也是理解其与图像中其他对象关系的重要方法。
复制链接

扫一扫

桃汽宝 CSDN认证博客专家 CSDN认证企业博客

码龄6年

61: 原创

4万+: 周排名

188万+: 总排名

14万+: 访问

: 等级

1647: 积分

434: 粉丝

169: 获赞

45: 评论

467: 收藏

私信

关注

热门文章

分类专栏

审稿意见回复
论文阅读
TextVQA
工具 11篇
MRC 4篇
Pytorch 30篇
Bert 2篇
Python 12篇
ubuntu16.04 2篇
PS 1篇
NLP与深度学习 15篇

最新评论

Pytorch net.parameters() net.named_parameters()
Laughing Man.: 要是能再详细一点就好了
COME2023
wangzhv: Thanks
COME2023
桃汽宝: COME: Clip-OCR and Master ObjEct for text image captioning 是这个
COME2023
wangzhv: 请问这篇论文的题目是？谢谢
torch.cuda.synchronize()
zlbbme_: 代码可以改为如下就对了： net = models.resnet18() inp = torch.randn(64, 3, 224, 224) net = net.cuda() inp = inp.cuda() torch.cuda.synchronize() start = time.time() result = net(inp) torch.cuda.synchronize() end = time.time() print(end-start) # inp = torch.randn(64, 3, 224, 224) start = time.time() result = net(inp) end = time.time() print(end-start)

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。