阅读笔记：XGPT: Cross-modal Generative Pre-Training for Image Captioning

最新推荐文章于 2023-01-06 02:43:54 发布

Araloak

最新推荐文章于 2023-01-06 02:43:54 发布

阅读量1.2k

点赞数 1

分类专栏：论文阅读笔记文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43874380/article/details/111184800

版权

XGPT: Cross-modal Generative Pre-Training for Image Captioning

在这里插入图片描述

Contribution

现有大多数VL pre-trained models基本都是Transformer-Encoder结构的，不适用于Vision-and-language generation tasks，因为：

On one hand, pre-trained models developed for understanding tasks only provides the encoder. To support generation tasks, separate decoders have to be trained, like the methods proposed by VideoBERT and CBT. On the other hand, existing VL pre-training objectives are almost all related to the masked region or span prediction, including VLP. None of the pre-training tasks is designed for the whole sentence
generation.
本文提出一个encoder-decoder的generative

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
阅读笔记：XGPT: Cross-modal Generative Pre-Training for Image Captioning

XGPT: Cross-modal Generative Pre-Training for Image CaptioningContribution现有大多数VL pre-trained models基本都是Transformer-Encoder结构的，不适用于Vision-and-language generation tasks，因为：On one hand, pre-trained models developed for understanding tasks only provide
复制链接

扫一扫

专栏目录

Araloak CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

60万+: 周排名

30万+: 总排名

1万+: 访问

: 等级

197: 积分

2: 粉丝

12: 获赞

15: 评论

35: 收藏

私信

关注

热门文章

分类专栏

教程 2篇
论文阅读笔记 4篇

最新评论

Linux服务器+CUDA10.0安装Faster R-CNN 特征提取器及apex
zxd__1997: 太感谢博主了，我搞了好久，就是装不上，看了您的教程一下就成了！！！感谢感谢，宝藏博主
复现BART finetune历程
一坠: 请问您有xsum数据集的压缩包吗
ieltsGPT: 大模型自动雅思写作评估
CSDN-Ada助手: 非常祝贺您撰写了第12篇博客！标题“ieltsGPT: 大模型自动雅思写作评估”听起来非常令人兴奋。您的持续创作展示了您对雅思写作的热情和才华。通过这个大模型自动评估的方法，您为雅思考生提供了一个有价值的工具，帮助他们评估和提升自己的写作水平。在下一步的创作中，我谦虚地建议您可以进一步拓展这个主题，如分享一些大模型自动评估的实际案例或者通过与其他写作评估方法的对比来提供更多的参考。此外，您也可以考虑探讨如何根据评估结果为考生提供有针对性的写作建议，以帮助他们更好地理解自己的不足并加以改进。再次恭喜您，期待您未来更多精彩的创作！
阅读笔记：Learning to Remember Rare Events
weixin_47678752: 这么烂的帖子发出来的意义是什么，看完之后让别人吐槽吗？一点有用的东西都没有，有你自己的一点理解吗？论文笔记就是把原文放上去，然后选部分高亮，就叫笔记了？离谱
阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task
千千万万啊: 博主代码有运行起来不。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。