文档智能
文章平均质量分 88
余俊晖
余俊晖,NLP炼丹师,目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。
展开
-
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
文档智能解析目前落地的方案还是基于pipline的形式,端到端的方案目前受限资源速度等因素落地还有些距离。原创 2024-11-01 09:11:46 · 1271 阅读 · 0 评论 -
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
前面文章提到,文档智能解析能够有效的增强RAG系统的准确性。可以看到基于PDF的RAG,需要先对pdf进行解析,生成文本chunk,然后再基于文本建索引。这种pipline的方式,每个解析模块都需要放置对应的解析模型,存在着错误传播的问题。因此,笔者看到ColPali时,这种端到端的方案挺有意思,本文来看一看这个思路。原创 2024-11-01 09:09:53 · 904 阅读 · 0 评论 -
【文档智能】文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR
OCR技术作为文档智能解析链路中的核心组件之一,贯穿整个技术链路,包括:文字识别、表格文字识别、公式识别,参看下面这张架构图:前期介绍了很多关于文档智能解析相关核心技术及思路,本着连载的目的,本次迎来介绍整个链路中的最后一块拼图-OCR。本文简要介绍OCR常见落地的算法模型-DBNet、CRNN,并基于这两个模型,简单介绍文字识别在表格识别中参与的角色;并且额外介绍TrOCR这个端到端的模型,基于这个模型引入公式识别解析的思路及微调方法。原创 2024-10-13 16:55:28 · 1523 阅读 · 0 评论 -
【多模态】一次多模态大模型表格识别解析探索小实践记录
训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是。作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。前期文章也介绍了传统视觉的方法进行表格结构识别的方法,国庆期间,笔者利用一个较长的时间段,训练了一个。模型,效果还不错,特此记录一下多模态的效果。下面的一些case来源于网络的表格截图。关于表格识别在这里就不做过多的介绍了。模型参数量目前较大,推理速度比较慢。原创 2024-10-12 19:43:46 · 654 阅读 · 0 评论 -
【RAG】表格场景RAG怎么做?TableRAG:一种增强大规模表格理解框架
文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法-HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。本文介绍了HiQA,这是一个专门为了解决现有RAG在多文档问答(MDQA)环境中的局限性而设计的新型框架,特别是在处理无法区分的多文档时。原创 2024-10-11 09:33:58 · 575 阅读 · 0 评论 -
【RAG】HiQA:一种用于多文档问答的层次化上下文增强RAG
文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法-HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。本文介绍了HiQA,这是一个专门为了解决现有RAG在多文档问答(MDQA)环境中的局限性而设计的新型框架,特别是在处理无法区分的多文档时。原创 2024-10-07 19:33:01 · 731 阅读 · 0 评论 -
【RAG】混合RAG系统,提升复杂推理任务表现
RAG的兴起,越来越多的人开始关注文档结构化解析的效果,这个赛道变得非常的同质化。关于文档智能解析过程中的每个技术环节的技术点,前期文章详细介绍了很多内容:下面我们简单的看看Docling这个PDF文档解析框架里面都有什么技术。文档智能解析现在非常同质化,实际上能解决自己场景文档解析的实用工具很少,不过可以参考下Docling工程上的具体优化,如多线程等。结合一些其他较强的开源或者自研的小模型,进行替换,打造自己的文档解析工具。原创 2024-09-27 09:01:46 · 810 阅读 · 0 评论 -
【文档智能 & RAG】浅看开源的同质化的文档解析框架-Docling
RAG的兴起,越来越多的人开始关注文档结构化解析的效果,这个赛道变得非常的同质化。关于文档智能解析过程中的每个技术环节的技术点,前期文章详细介绍了很多内容:下面我们简单的看看Docling这个PDF文档解析框架里面都有什么技术。文档智能解析现在非常同质化,实际上能解决自己场景文档解析的实用工具很少,不过可以参考下Docling工程上的具体优化,如多线程等。结合一些其他较强的开源或者自研的小模型,进行替换,打造自己的文档解析工具。原创 2024-09-26 09:00:19 · 393 阅读 · 0 评论 -
【文档智能 & RAG】浅看开源的同质化的文档解析框架-Docling
RAG的兴起,越来越多的人开始关注文档结构化解析的效果,这个赛道变得非常的同质化。关于文档智能解析过程中的每个技术环节的技术点,前期文章详细介绍了很多内容:下面我们简单的看看Docling这个PDF文档解析框架里面都有什么技术。文档智能解析现在非常同质化,实际上能解决自己场景文档解析的实用工具很少,不过可以参考下Docling工程上的具体优化,如多线程等。结合一些其他较强的开源或者自研的小模型,进行替换,打造自己的文档解析工具。原创 2024-08-26 09:55:48 · 744 阅读 · 0 评论 -
【文档智能 & RAG】RAG新基建-RAG性能增强关键技术点及通用文档解析工具-TextIn
在私有领域知识问答和企业知识管理领域,结合检索增强型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成为一种趋势。然而,在RAG系统的文档预处理阶段和检索阶段,经常碰到三个主要问题。企业内部常常积累了大量包含PDF格式的文档,这些文档的解析精度不足,严重制约了基于专业知识的问答系统的性能。因此,提高这些PDF文件的解析质量,对于构建高效的RAG系统至关重要。构建起一个完备的智能文档解析服务后,需要一个。原创 2024-07-19 11:47:01 · 1598 阅读 · 1 评论 -
【文档智能】LACE:帮你自动生成文档布局的方法浅尝
往期很多文章都介绍了【文档智能】上布局识别(版式分析)的技术思路,版式分析是通过对文档版式进行布局识别,识别文档中的元素类型的过程。这次来看看一个有趣的思路,通过已有的元素类型,来生成可控的文档的布局。介绍之前,先概述下一些基础的概念。可控布局生成:在图形设计(例如文档和网页设计)中创建元素的合理视觉排列的过程,同时考虑到代表设计意图的约束条件。FID评价指标:FID(Fréchet Inception Distance)是一种用于评估生成模型和真实数据分布之间差异的指标。原创 2024-07-09 20:28:50 · 844 阅读 · 0 评论 -
【数据集】最近开源的一些多模态图表理解数据集
现有数据集通常关注过于简化和同质化的图表,并且问题往往基于模板生成,这导致了对MLLMs图表理解能力的过度乐观评估。为了解决这个问题,作者提出了一个新的评估套件CharXiv,它包含了从arXiv论文中精选的2323个自然、具有挑战性和多样性的图表,并设计了两种类型的问题:描述性问题和推理问题,以全面评估MLLMs在图表理解方面的能力。数据集类型:图表结构提取、图表推理。原创 2024-07-03 19:39:08 · 577 阅读 · 0 评论 -
【文档智能】DLAFormer:端到端的解决版式分析、阅读顺序方法
前面文章介绍到,文档智能中版式分析(DLA)(《【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路》)、阅读顺序(《【文档智能】符合人类阅读顺序的文档模型-LayoutReader及非官方权重开源》)都是文档的智能结构识别和解析中非常重要的部分。传统的pipline的形式,首先通过版式分析的方法识别出文档中各个信息区块的位置信息及类别信息,然后通过使用阅读顺序的方法,复原出原始文档中各个区块的阅读顺序。本文介绍一种端到端的解决文档版式分析、阅读顺序的方法-DLAFormer。原创 2024-06-29 12:53:32 · 1243 阅读 · 0 评论 -
【文档智能】实践:基于Yolo三行代码极简的训练一个版式分析模型
本文以开源的CDLA数据集做为实验,CDLA是一个中文文档版面分析数据集,面向中文文献类(论文)场景。原创 2024-06-16 11:49:47 · 530 阅读 · 2 评论 -
【文档智能 & RAG】RAG增强之路-智能文档解析关键技术难点及PDF解析工具PDFlux
在私域知识问答和企业知识工程领域,结合Retrieval-Augmented Generation(RAG)模型和大型语言模型(LLM)已成为主流方法。然而,企业中存在着大量的PDF文件,PDF解析的低准确性显著影响了基于专业知识的问答效果,因此,这些文件的有效解析对RAG模型的构建至关重要。上篇文章(【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路)主要讨论了开源的PDF解析技术,而本文将先探讨下RAG落地时常见的问题及文档解析在RAG的重要性智能文档解析关键技术。原创 2024-06-15 15:00:27 · 2725 阅读 · 4 评论 -
【文档智能】包含段落的开源的中文版面分析模型
权重下载地址:https://huggingface.co/qihoo360/360LayoutAnalysis。原创 2024-06-12 22:26:37 · 1880 阅读 · 0 评论 -
【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路
现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以 PDF 格式存储,低精度的 PDF 解析会显著影响专业知识问答的效果。因此,本文将介绍针对pdf,介绍一些pdf结构化技术链路供参考。原创 2024-06-10 16:33:06 · 3892 阅读 · 0 评论 -
【文档智能】符合人类阅读顺序的文档模型-LayoutReader原理及权重开源
LayoutReader模型使用seq2seq模型捕获文本和布局信息,用于阅读顺序预测,在实验中表现出色,并显著提高了开源和商业OCR引擎在文本行排序方面的表现。在编码阶段,LayoutReader将源序列和目标序列打包成一个连续的输入序列,并设计了自注意力掩码来控制token之间的可见性。具体来说,LayoutReader允许源序列中的标记相互关注,同时阻止目标序列中的标记关注右侧上下文。在解码阶段,由于源序列和目标序列是重新排序的序列,预测候选可以被限制在源序列内。因此,模型被要求预测源序列中的索引。原创 2024-06-02 18:31:17 · 1344 阅读 · 0 评论 -
【文档智能 & LLM】LayoutLLM:一种多模态文档布局模型和大模型结合的框架
传统的文档理解任务,通常的做法是先经过预训练,然后微调相应的下游任务及数据集,如文档图像分类和信息提取等,通过结合图像、文本和布局结构的预训练知识来增强文档理解。LayoutLLM是一种结合了大模型和视觉文档理解技术的单模型方法,通过多模态指令数据集的微调来提高对图像文档的理解和分析能力。本文介绍了一种传统布局模型结合大模型做文档理解的方法:LayoutLLM。这个框架通过结合VrDU编码器来捕捉文档图像的特征,以及使用LLM作为解码器来处理任务指令,有效地提高了对文档图像的理解和分析能力。原创 2024-03-24 11:39:11 · 2112 阅读 · 0 评论 -
【文档智能】再谈基于Transformer架构的文档智能理解方法论和相关数据集
文档的智能解析与理解成为为知识管理的关键环节。特别是在处理扫描文档时,如何有效地理解和提取表单信息,成为了一个具有挑战性的问题。扫描文档的复杂性,包括其结构的多样性、非文本元素的融合以及手写与印刷内容的混合,都为自动化处理带来了难题。本文记录了基于Transformer架构的文档理解模型常见方法和相关数据集。文档理解本质上是一个序列标注任务,类似于命名实体识别(NER),通常被称为关键信息提取(KIE)。原创 2024-03-09 16:10:46 · 1460 阅读 · 1 评论 -
【预处理】大模型下开源文档解析工具总结及技术思考
本文介绍了一些常见的文档解析工具和实现方法以及文本分割模型在文档解析中的充当的角色,并提供了相关技术实现思路。当然,如果粗糙的进行文档处理也是可以的,常见的有,基于LangChain的文档处理方式,但其底层技术很多都是上述文档parser工具的集成。在面对复杂文档,解析时还是存在一定的困难,基于布局的多模态版面分析是值得研究的点。虽然目前百模支撑的上下文长度能cover一本书的长度,但真正落地实施起来效果一般。原创 2023-12-18 16:38:24 · 2978 阅读 · 0 评论 -
【文档智能】多模态预训练模型及相关数据集汇总
大模型时代,在现实场景中或者企业私域数据中,大多数数据都以文档的形式存在,如何更好的解析获取文档数据显得尤为重要。文档智能也从以前的目标检测(版面分析)阶段转向多模态预训练阶段,本文将介绍目前一些前沿的多模态预训练模型及相关数据集。本文简单介绍了文档智能领域关于多模态预训练语言模型相关内容及相关数据集,相对于基于目标检测(版面分析)的pipline形式,多模态预训练模型能够一定程度的实现端到端的提取文本内容。但实际应用还需要根据特定的场景进行进一步的研究。原创 2023-10-15 17:54:24 · 973 阅读 · 0 评论 -
【文档智能】:GeoLayoutLM:一种用于视觉信息提取(VIE)的预训练模型
文章介绍了一种用于视觉信息提取(VIE)的预训练模型:GeoLayoutLM。GeoLayoutLM通过显式建模几何关系和特殊的预训练任务来提高文本和布局的特征表示。该模型能够提高文档信息抽取的性能。该文章提出GeoLayoutLM,一个用于VIE的几何预训练框架。定义了三种不同层次的几何关系:GeoPair、GeoMPair和GeoTriplet。相应地,引入了三个专门设计的预训练目标来明确地建模几何关系。相较于LayoutLMv3,在关系抽取上取得了非常好的性能,为文档智能的布局理解提供了新的思路。原创 2023-09-29 10:59:02 · 832 阅读 · 0 评论