多模态
文章平均质量分 95
WiSirius
这个作者很懒,什么都没留下…
展开
-
多模态:Nougat详解
科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。文章提出Nougat,一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言。Nougat尝试用一个端到端的方式来实现过去无数小模型+策略配合的结果。推理速度慢。虽然过去的pipeline设计多个模型,但每个模型都非常轻量化,组合起来的参数量甚至不到Nougat的1/10。定制化难。数据集构建成本高。(但是nougat的数据工程确实也很惊艳,非常值得学习!!原创 2024-07-09 18:34:22 · 855 阅读 · 0 评论 -
多模态-大模型:MLLM综述(适用初学)
paper近年来,以GPT-4V为代表的多模态大语言模型(Multimodal Large Language Model, MLLM)成为一个新兴的研究热点。它使用强大的大型语言模型(llm)作为大脑来执行多模态任务。其表现出令人惊讶的突发能力,如基于图像和无ocr的数学推理编写故事,在传统的多模态方法中很少见。文章跟踪并总结MLMM的最新进展。论文讨论关键技术和应用,包括多模态指令调优(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。原创 2024-06-24 17:49:42 · 1163 阅读 · 0 评论 -
多模态:Vary-toy
Vary的提出让大模型在OCR相关任务的能力有了很大突破,通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足,详情可参考我之前的文章——多模态:Vary。最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy,与Vary相比,Vary-toy除了小之外,还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费,以及吃不到SAM预训练优势的问题。原创 2024-03-19 15:00:16 · 1064 阅读 · 0 评论 -
多模态:YOLO-World详解
YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测具有很好的效果。原创 2024-02-26 18:47:45 · 4226 阅读 · 1 评论 -
多模态:CLIP详解
2.8: 首先为今天还在努力学习的人们献上🎆CLIP目前无论在CV领域还是NLP领域都是人尽皆知的,该模型的发布直接带动了整个多模态领域的飞速发展。Open AI提出Contrastive Language-Image Pre-training (CLIP),突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练,并且可以直接迁移到Imagenet上,完全不需要图像标签微调即可实现zero-shot分类。原创 2024-02-08 13:07:12 · 2616 阅读 · 0 评论 -
多模态:Vary
目前大型视觉语言模型(LVLMs)在视觉处理方面通常使用CLIP来完成的。通过CLIP对图像进行编码,可以涵盖大多数常见的视觉语言任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,尤其是在非英语场景中,CLIP风格的词汇在标记视觉知识方面可能会遇到效率低的问题,甚至会出现词汇外问题。因此,文章提出了一种有效扩展LVLMs视觉词汇的方法Vary。原创 2024-01-15 20:38:31 · 1343 阅读 · 0 评论 -
多模态:图像分割SAM
图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起,如目标检测,图像分割,这些技术引入图像生成相关技术的pipeline中,可以设计出更多创新性的算法。而这些基础技术也有了一些大模型,如目标检测的GroundingDINO,图像分割的SAM(segment anything model)。本文主要对SAM进行介绍。SAM是一个交互式分割模型,可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。整体上来说,SAM的模型结构说不上十分复杂,但其令人竟然的数据工程和训练方式实在让人赞叹。原创 2024-02-01 18:10:32 · 1863 阅读 · 3 评论