多模态
文章平均质量分 84
余俊晖
余俊晖,NLP炼丹师,目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。
展开
-
【多模态&RAG】多模态RAG ColPali实践
关于前面已经介绍了(供参考),这次来看看ColPali实践。原创 2024-11-02 14:02:55 · 206 阅读 · 0 评论 -
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
文档智能解析目前落地的方案还是基于pipline的形式,端到端的方案目前受限资源速度等因素落地还有些距离。原创 2024-11-01 09:11:46 · 1271 阅读 · 0 评论 -
【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用
前期文章提到,多模态的RAG框架ColPali通过视觉语言模型(VLMs)高效地检索纯视觉特征的文档,实现视觉文档问答。本文再来看一个类似工作,VisRAG,一种基于视觉语言模型的检索增强生成(RAG)方法,用于解决多模态文档中的信息利用问题。原创 2024-11-01 09:10:49 · 884 阅读 · 0 评论 -
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
前面文章提到,文档智能解析能够有效的增强RAG系统的准确性。可以看到基于PDF的RAG,需要先对pdf进行解析,生成文本chunk,然后再基于文本建索引。这种pipline的方式,每个解析模块都需要放置对应的解析模型,存在着错误传播的问题。因此,笔者看到ColPali时,这种端到端的方案挺有意思,本文来看一看这个思路。原创 2024-11-01 09:09:53 · 903 阅读 · 0 评论 -
【文档智能】文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR
OCR技术作为文档智能解析链路中的核心组件之一,贯穿整个技术链路,包括:文字识别、表格文字识别、公式识别,参看下面这张架构图:前期介绍了很多关于文档智能解析相关核心技术及思路,本着连载的目的,本次迎来介绍整个链路中的最后一块拼图-OCR。本文简要介绍OCR常见落地的算法模型-DBNet、CRNN,并基于这两个模型,简单介绍文字识别在表格识别中参与的角色;并且额外介绍TrOCR这个端到端的模型,基于这个模型引入公式识别解析的思路及微调方法。原创 2024-10-13 16:55:28 · 1523 阅读 · 0 评论 -
【多模态】一次多模态大模型表格识别解析探索小实践记录
训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是。作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。前期文章也介绍了传统视觉的方法进行表格结构识别的方法,国庆期间,笔者利用一个较长的时间段,训练了一个。模型,效果还不错,特此记录一下多模态的效果。下面的一些case来源于网络的表格截图。关于表格识别在这里就不做过多的介绍了。模型参数量目前较大,推理速度比较慢。原创 2024-10-12 19:43:46 · 654 阅读 · 0 评论 -
【多模态】常见在多模态任务中的数据增强方法crop实现
最近多模态大模型层出不穷,笔者关注到了很多大模型中都采用了crop进行图像增强,如:llava、Intern-VL1.5等,以Intern-VL1.5中的瓷砖crop方法为例,看看在图像处理过程中如何通过动态匹配最佳的宽高比(aspect ratio)来保持自然的图像比例。动态宽高比匹配(Dynamic Aspect Ratio Matching)在处理图像时,为了确保图像的自然宽高比保持不变,需要动态地选择最合适的宽高比。这意味着根据图像的实际宽高比从预定义的宽高比集合中选择一个最匹配的比率。原创 2024-09-06 09:01:06 · 543 阅读 · 0 评论 -
【文档智能】LACE:帮你自动生成文档布局的方法浅尝
往期很多文章都介绍了【文档智能】上布局识别(版式分析)的技术思路,版式分析是通过对文档版式进行布局识别,识别文档中的元素类型的过程。这次来看看一个有趣的思路,通过已有的元素类型,来生成可控的文档的布局。介绍之前,先概述下一些基础的概念。可控布局生成:在图形设计(例如文档和网页设计)中创建元素的合理视觉排列的过程,同时考虑到代表设计意图的约束条件。FID评价指标:FID(Fréchet Inception Distance)是一种用于评估生成模型和真实数据分布之间差异的指标。原创 2024-07-09 20:28:50 · 844 阅读 · 0 评论 -
【数据集】最近开源的一些多模态图表理解数据集
现有数据集通常关注过于简化和同质化的图表,并且问题往往基于模板生成,这导致了对MLLMs图表理解能力的过度乐观评估。为了解决这个问题,作者提出了一个新的评估套件CharXiv,它包含了从arXiv论文中精选的2323个自然、具有挑战性和多样性的图表,并设计了两种类型的问题:描述性问题和推理问题,以全面评估MLLMs在图表理解方面的能力。数据集类型:图表结构提取、图表推理。原创 2024-07-03 19:39:08 · 576 阅读 · 0 评论 -
【文档智能】符合人类阅读顺序的文档模型-LayoutReader原理及权重开源
LayoutReader模型使用seq2seq模型捕获文本和布局信息,用于阅读顺序预测,在实验中表现出色,并显著提高了开源和商业OCR引擎在文本行排序方面的表现。在编码阶段,LayoutReader将源序列和目标序列打包成一个连续的输入序列,并设计了自注意力掩码来控制token之间的可见性。具体来说,LayoutReader允许源序列中的标记相互关注,同时阻止目标序列中的标记关注右侧上下文。在解码阶段,由于源序列和目标序列是重新排序的序列,预测候选可以被限制在源序列内。因此,模型被要求预测源序列中的索引。原创 2024-06-02 18:31:17 · 1344 阅读 · 0 评论 -
【文档智能】再谈基于Transformer架构的文档智能理解方法论和相关数据集
文档的智能解析与理解成为为知识管理的关键环节。特别是在处理扫描文档时,如何有效地理解和提取表单信息,成为了一个具有挑战性的问题。扫描文档的复杂性,包括其结构的多样性、非文本元素的融合以及手写与印刷内容的混合,都为自动化处理带来了难题。本文记录了基于Transformer架构的文档理解模型常见方法和相关数据集。文档理解本质上是一个序列标注任务,类似于命名实体识别(NER),通常被称为关键信息提取(KIE)。原创 2024-03-09 16:10:46 · 1460 阅读 · 1 评论 -
多模态大型语言模型综述
这篇论文《The ®Evolution of Multimodal Large Language Models: A Survey》提供了对多模态大型语言模型(MLLMs)领域的全面回顾。引言:介绍了MLLMs的重要性,它们通过整合视觉和文本模态,提供了基于对话的接口和遵循指令的能力。论文强调了在这一领域进行研究的重要性,并概述了研究的三个核心方面:模型架构、训练方法和任务设计。赋予LLMs多模态能力。原创 2024-02-21 15:15:22 · 1374 阅读 · 0 评论 -
【文档智能】多模态预训练模型及相关数据集汇总
大模型时代,在现实场景中或者企业私域数据中,大多数数据都以文档的形式存在,如何更好的解析获取文档数据显得尤为重要。文档智能也从以前的目标检测(版面分析)阶段转向多模态预训练阶段,本文将介绍目前一些前沿的多模态预训练模型及相关数据集。本文简单介绍了文档智能领域关于多模态预训练语言模型相关内容及相关数据集,相对于基于目标检测(版面分析)的pipline形式,多模态预训练模型能够一定程度的实现端到端的提取文本内容。但实际应用还需要根据特定的场景进行进一步的研究。原创 2023-10-15 17:54:24 · 973 阅读 · 0 评论 -
【文档智能】:GeoLayoutLM:一种用于视觉信息提取(VIE)的预训练模型
文章介绍了一种用于视觉信息提取(VIE)的预训练模型:GeoLayoutLM。GeoLayoutLM通过显式建模几何关系和特殊的预训练任务来提高文本和布局的特征表示。该模型能够提高文档信息抽取的性能。该文章提出GeoLayoutLM,一个用于VIE的几何预训练框架。定义了三种不同层次的几何关系:GeoPair、GeoMPair和GeoTriplet。相应地,引入了三个专门设计的预训练目标来明确地建模几何关系。相较于LayoutLMv3,在关系抽取上取得了非常好的性能,为文档智能的布局理解提供了新的思路。原创 2023-09-29 10:59:02 · 832 阅读 · 0 评论