- 博客(145)
- 收藏
- 关注
原创 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路
现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以 PDF 格式存储,低精度的 PDF 解析会显著影响专业知识问答的效果。因此,本文将介绍针对pdf,介绍一些pdf结构化技术链路供参考。
2024-06-10 16:33:06 3808
原创 HMM(隐马尔可夫)中文分词
一、隐马尔可夫模型 隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程。1、举例理解 假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。第二个骰子是个四面体(称这个骰子为D4),每个面(1,2,3,4)出现的概率是1/4。第三个骰子有八个面(称这个骰子为D8),每个面(1,2,3,4,5,6,7,8)出现的概率是1/8。 假设我们开始掷骰子,我们先
2020-09-19 10:52:39 6392 3
原创 TF-IDF算法和余弦相似度算法计算文本相似度(纯手撕)
一、TF-IDF算法 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想是:如果某个单词在一篇文章中
2020-09-06 12:05:26 9928 4
原创 正向最大匹配算法(中文分词)
一、最大匹配法 最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。最大匹配算法有三种: 1、正向最大匹配 2、逆向最大匹配 3、双向匹配 三种算法原理都一样,以正向为例,是从前向后扫描的过程。如下:二、使用北大训练集实现正向最大匹配1、数据集(从中选取北大的训练集)2、代码实现# -*- coding: utf-8 -*-"""@au
2020-08-30 17:49:42 14363 1
原创 【RAG】自动化RAG框架-“AutoML风”卷到了RAG?
AutoML(自动机器学习)是指通过自动化过程,简化机器学习模型的开发、训练和优化,使非专业用户也能有效地构建高性能模型。今天分享的。文章评估了各种RAG技术。分别为的策略。每种技术旨在优化外部知识源与生成过程的整合,以提高LLM输出的准确性。使用教程可以看一下。
2024-11-01 09:13:50 318
原创 【RAG】R²AG:将检索信息融入RAG,提升问答系统准确性
文章指出,传统RAG通过向量检索排序召回与Query相关的片段,通过prompt生成回复,LLMs与检索器之间存在语义鸿沟(LLMs难以有效利用检索器提供的信息)。下面来看看这篇文章引入检索信息增强RAG性能的trick。
2024-11-01 09:12:40 684
原创 【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
文档智能解析目前落地的方案还是基于pipline的形式,端到端的方案目前受限资源速度等因素落地还有些距离。
2024-11-01 09:11:46 1222
原创 【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用
前期文章提到,多模态的RAG框架ColPali通过视觉语言模型(VLMs)高效地检索纯视觉特征的文档,实现视觉文档问答。本文再来看一个类似工作,VisRAG,一种基于视觉语言模型的检索增强生成(RAG)方法,用于解决多模态文档中的信息利用问题。
2024-11-01 09:10:49 865
原创 【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
前面文章提到,文档智能解析能够有效的增强RAG系统的准确性。可以看到基于PDF的RAG,需要先对pdf进行解析,生成文本chunk,然后再基于文本建索引。这种pipline的方式,每个解析模块都需要放置对应的解析模型,存在着错误传播的问题。因此,笔者看到ColPali时,这种端到端的方案挺有意思,本文来看一看这个思路。
2024-11-01 09:09:53 664
原创 【RAG】aiops第一名方案-EasyRAG:自动网络运营的高效检索增强生成框架
来看一个RAG比赛方案,提出了一个名为EasyRAG的框架,用于自动化网络操作的检索增强生成。该框架旨在解决网络操作中信息检索和生成效率低、准确性差的问题。研究难点包括:如何在保证准确性的前提下提高检索和生成的效率;如何实现简单快速的部署;如何在推理过程中显著减少延迟。比赛地址:competition.aiops-challenge.com。
2024-10-18 20:40:08 752
原创 【LLM & KG】浅尝基于LLM的三阶段自动知识图谱构建方法
提示LLMs为提取的Schema组件(如实体类型和关系类型)提供自然语言定义。然后将这些定义作为用于规范化的辅助信息传递到下一阶段。
2024-10-13 16:57:23 934
原创 【文档智能】文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR
OCR技术作为文档智能解析链路中的核心组件之一,贯穿整个技术链路,包括:文字识别、表格文字识别、公式识别,参看下面这张架构图:前期介绍了很多关于文档智能解析相关核心技术及思路,本着连载的目的,本次迎来介绍整个链路中的最后一块拼图-OCR。本文简要介绍OCR常见落地的算法模型-DBNet、CRNN,并基于这两个模型,简单介绍文字识别在表格识别中参与的角色;并且额外介绍TrOCR这个端到端的模型,基于这个模型引入公式识别解析的思路及微调方法。
2024-10-13 16:55:28 1492
原创 【RAG】表格场景RAG怎么做?TableRAG:一种增强大规模表格理解框架
前面很多期介绍了密集文档场景的RAG方法,今天来看看大量表格场景的RAG怎么做的。现有结合大模型的方法通常需要将整个表格作为输入,这会导致一些挑战,比如位置偏差、上下文长度限制等,尤其是在处理大型表格时。为了解决这些问题,文章提出了TableRAG框架,该框架利用和,以在。这种方法能够更高效地编码数据和精确检索,显著减少提示长度并减轻信息丢失。语言模型读取整个表格。这是最直接的方法,但往往不可行,因为大型表格会超出模型的处理能力。阴影区域表示提供给语言模型的数据,包括所有行和列。
2024-10-12 19:44:26 948
原创 【多模态】一次多模态大模型表格识别解析探索小实践记录
训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是。作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。前期文章也介绍了传统视觉的方法进行表格结构识别的方法,国庆期间,笔者利用一个较长的时间段,训练了一个。模型,效果还不错,特此记录一下多模态的效果。下面的一些case来源于网络的表格截图。关于表格识别在这里就不做过多的介绍了。模型参数量目前较大,推理速度比较慢。
2024-10-12 19:43:46 633
原创 【RAG】OPEN-RAG:利用开源大型语言模型增强检索增强推理
检索增强生成(RAG)已被证明可以提高大型语言模型(LLMs)的事实准确性,但现有方法在有效使用检索到的证据方面往往存在有限的推理能力,特别是当使用开源LLMs时。引入了一个新颖的框架OPEN-RAG,增强基于开源大型语言模型的检索增强推理的能力,特别是处理复杂推理任务时的有限推理能力。
2024-10-11 09:35:03 747
原创 【RAG】表格场景RAG怎么做?TableRAG:一种增强大规模表格理解框架
文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法-HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。本文介绍了HiQA,这是一个专门为了解决现有RAG在多文档问答(MDQA)环境中的局限性而设计的新型框架,特别是在处理无法区分的多文档时。
2024-10-11 09:33:58 555
原创 【RAG】HiQA:一种用于多文档问答的层次化上下文增强RAG
文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法-HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。本文介绍了HiQA,这是一个专门为了解决现有RAG在多文档问答(MDQA)环境中的局限性而设计的新型框架,特别是在处理无法区分的多文档时。
2024-10-07 19:33:01 725
原创 【LLM】参数高效微调(Parameter-Efficient Fine-Tuning)-Prefix Tuning、Adapter Tuning、LoRA
回顾一下三种参数高效微调方法-Prefix Tuning、Adapter Tuning、LoRA。
2024-10-07 19:31:59 896
原创 【RAG】混合RAG系统,提升复杂推理任务表现
RAG的兴起,越来越多的人开始关注文档结构化解析的效果,这个赛道变得非常的同质化。关于文档智能解析过程中的每个技术环节的技术点,前期文章详细介绍了很多内容:下面我们简单的看看Docling这个PDF文档解析框架里面都有什么技术。文档智能解析现在非常同质化,实际上能解决自己场景文档解析的实用工具很少,不过可以参考下Docling工程上的具体优化,如多线程等。结合一些其他较强的开源或者自研的小模型,进行替换,打造自己的文档解析工具。
2024-09-27 09:01:46 806
原创 【文档智能 & RAG】浅看开源的同质化的文档解析框架-Docling
RAG的兴起,越来越多的人开始关注文档结构化解析的效果,这个赛道变得非常的同质化。关于文档智能解析过程中的每个技术环节的技术点,前期文章详细介绍了很多内容:下面我们简单的看看Docling这个PDF文档解析框架里面都有什么技术。文档智能解析现在非常同质化,实际上能解决自己场景文档解析的实用工具很少,不过可以参考下Docling工程上的具体优化,如多线程等。结合一些其他较强的开源或者自研的小模型,进行替换,打造自己的文档解析工具。
2024-09-26 09:00:19 368
原创 【RAG】WeKnow-RAG:融合Web搜索与知识图谱的自适应检索增强生成方法
往期文章介绍了《【RAG】混合RAG系统,提升复杂推理任务表现》,本文再来看看KDD CUP2024的CRAG的第三名方案,该方案提出WeKnow-RAG方法,结合了知识图谱和基于Web的RAG技术,通过多阶段检索、自评估机制以及智能平衡框架,提高了信息检索的精度和生成答案的可靠性。WeKnow-RAG方法通过结合知识图谱和Web搜索,设计了一个端到端的检索增强生成系统。该方法通过多阶段检索和自评估机制提高了信息检索的效率和准确性,并通过领域分类和查询生成优化了知识图谱的使用。
2024-09-26 08:58:44 1086
原创 【RAG】面向实时智能客服场景的RAG问答系统应用
这篇文章探讨了如何在工业环境中利用大型语言模型(LLMs)进行问题回答,特别是针对客服场景提供上下文相关的响应预测。然而,为了在行业环境中针对特定客户查询提供精确和相关的信息,LLMs需要访问全面的知识库以避免产生幻觉。面对这个问题,RAG技术应运而生。然而,使用RAG开发实际应用中的问答框架仍面临几个挑战:1)数据可用性问题,2)生成内容质量的评估,3)昂贵的人工评估成本。文章提出了一个端到端的RAG框架,用于解决工业环境中的问题回答问题。
2024-09-25 22:03:23 911
原创 【NLP】基于“检测器-纠错器”中文文本纠错框架
许多方法将中文拼写纠正(检测和纠正给定中文句子中的错误字符)视为序列标注任务,并在句子对上进行微调。一些方法使用错误检测器作为初步任务,然后将检测结果用于辅助后续的错误纠正过程。然而,现有方法在使用检测器时存在一些问题,如检测器性能不足或检测信息未能有效应用于纠正过程。难点:中文拼写纠正的难点在于中文是由象形文字组成的,字符的形状和发音与其意义密切相关。此外,中文句子通常由连续的字符组成,没有分隔符,这使得CSC方法必须基于上下文信息来辨别错误,而不是直接从独立的词语中查找拼写错误。
2024-09-25 22:01:50 1070
原创 【LLM & text2sql】浅看大模型用于text2sql的综述
之前笔者分享了text2sql & LLM & KG的有机结合实现KBQA的问答,【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践》、【开源分享】KBQA核心技术及结合大模型SPARQL查询生成问答实践我们再来看看大模型在text2sql上的一篇综述,大模型的发展,出现了一系列新方法,主要集中在提示工程(prompt engineering)和微调(fine-tuning)上。
2024-09-13 08:31:35 868
原创 【RAG】RAG再进化?基于长期记忆的检索增强生成新范式-MemoRAG
RAG现在工作很多,进化的也很快,再来看看一个新的RAG工作-MemoRAG。文章提出,RAG在减少大模型对于垂类知识的问答幻觉上取得了不错的效果,也成为私域知识问答的一种范式。然而,传统RAG系统主要适用于明确信息需求的问答任务,但在处理涉及模糊信息需求或非结构化知识的复杂任务时表现不佳。因为,现实世界中的许多问题信息需求是模糊的,外部知识是非结构化的,例如理解书籍中主要角色之间的相互关系。因此,研究难点如何有效处理模糊的信息需求如何从非结构化知识中提取有用信息。
2024-09-13 08:28:15 971
原创 【RAG】LongRAG:利用长上下文LLMs增强检索增强生成
现有的RAG框架通常使用100词的短段落作为检索单元,这种设计使得检索器需要在大量语料库中搜索,增加了工作负担,并且容易引入难负样本,影响性能。LongRAG框架为了解决这一问题,该框架使用长检索单元(最多4K词),显著减少了语料库的大小(从22M减少到600K),从而减轻了检索器的负担,并提高了检索性能。LongRAG框架通过引入长检索器和长阅读器,减轻了检索器的负担,提高了检索质量和全文问答性能。该框架在不进行任何训练的情况下,达到了与最先进的全训练RAG模型相当的性能。
2024-09-06 09:02:50 1007
原创 【多模态】常见在多模态任务中的数据增强方法crop实现
最近多模态大模型层出不穷,笔者关注到了很多大模型中都采用了crop进行图像增强,如:llava、Intern-VL1.5等,以Intern-VL1.5中的瓷砖crop方法为例,看看在图像处理过程中如何通过动态匹配最佳的宽高比(aspect ratio)来保持自然的图像比例。动态宽高比匹配(Dynamic Aspect Ratio Matching)在处理图像时,为了确保图像的自然宽高比保持不变,需要动态地选择最合适的宽高比。这意味着根据图像的实际宽高比从预定义的宽高比集合中选择一个最匹配的比率。
2024-09-06 09:01:06 536
原创 【RAG】FastEmbed:一种轻量的快速文本嵌入工具
在进行文本嵌入时,尤其是RAG系统,有一个快速高效的文本嵌入工具是非常有必要的。因此,FastEmbed设计目标是提升计算效率,同时保持嵌入表示的质量。此外,FastEmbed还支持一些图像嵌入模型。高效的计算速度,适合大规模数据处理;使用ONNX Runtime实现最优性能。低资源消耗,适用于多种设备和环境。FastEmbed刻意减少了对外部资源的依赖,并选择了ONNX Runtime作为其运行时框架。灵活性强,可应用于不同的 NLP 任务。兼容GPU,支持GPU加速计算,进一步提升效率。
2024-08-26 09:56:46 391
原创 【文档智能 & RAG】浅看开源的同质化的文档解析框架-Docling
RAG的兴起,越来越多的人开始关注文档结构化解析的效果,这个赛道变得非常的同质化。关于文档智能解析过程中的每个技术环节的技术点,前期文章详细介绍了很多内容:下面我们简单的看看Docling这个PDF文档解析框架里面都有什么技术。文档智能解析现在非常同质化,实际上能解决自己场景文档解析的实用工具很少,不过可以参考下Docling工程上的具体优化,如多线程等。结合一些其他较强的开源或者自研的小模型,进行替换,打造自己的文档解析工具。
2024-08-26 09:55:48 685
原创 【工具】onnx模型结构信息查看方式:netron、onnxruntime和onnx
将模型转为onnx格式进行部署时,对模型结构不是特别清楚,尤其是模型的输入输出结构时,通常使用一些工具进行查看。
2024-08-19 18:29:57 1567
原创 【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践
本文介绍了一个融合RAG(Retrieval-Augmented Generation)思路的KBQA(Knowledge-Based Question Answering)系统的核心算法及实现步骤。KBQA系统的目标是通过自然语言处理技术,从知识图谱中提取和生成精确的答案。mention识别、实体链接及排序、属性选择及排序、文本拼接以及最终的Text2SQL生成。通过这些步骤,系统能够准确识别用户提出的问题中的关键实体和属性,并生成相应的查询语句,从而从知识图谱或数据库中检索所需的信息。
2024-08-19 18:28:49 1182
原创 【文档智能 & RAG】RAG新基建-RAG性能增强关键技术点及通用文档解析工具-TextIn
在私有领域知识问答和企业知识管理领域,结合检索增强型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成为一种趋势。然而,在RAG系统的文档预处理阶段和检索阶段,经常碰到三个主要问题。企业内部常常积累了大量包含PDF格式的文档,这些文档的解析精度不足,严重制约了基于专业知识的问答系统的性能。因此,提高这些PDF文件的解析质量,对于构建高效的RAG系统至关重要。构建起一个完备的智能文档解析服务后,需要一个。
2024-07-19 11:47:01 1568 1
原创 【NLP & LLM】大模型结构化输出控制技巧及简历信息抽取结构化实践
在使用大模型进行信息抽取任务时,如何使得大模型的输出结果更加可控、稳定(输出稳定的json等)非常重要,这关系到抽取的数据后期开发使用。微调法:微调大模型输出稳定格式的结果(json等)few-shot法:通过在prompt中告知大模型几个示例,要求大模型输出相似的格式但是,尽管如此,在实际操作过程中,仍然会面对着输出不稳定的情况,那么,经常采用的方法就是对输出的结果进行校验,如:要求输出json时,常校验json是否合理。校验失败时,常对大模型进行重复请求多次,以此达到输出结构化的格式。
2024-07-19 11:28:29 1139
原创 【RAG & KG】GraphRAG开源:查询聚焦摘要的图RAG方法
传统的 RAG 方法在处理针对整个文本语料库的全局性问题时存在不足,例如查询:“数据中的前 5 个主题是什么?对于此类问题,是因为这类问题本质上是查询聚焦的摘要(Query-Focused Summarization, QFS)任务,而不是传统的显式检索任务。Graph RAG 通过使用 LLM 构建基于图的文本索引,从源文档构建知识图谱。通过构建知识图谱,能够将复杂的、大规模文本数据集转化为易于理解和操作的知识结构,以便更好地理解实体(如人物、地点、机构等)之间的相互关系。使用 LLM。
2024-07-09 20:31:05 1368 2
原创 【文档智能】LACE:帮你自动生成文档布局的方法浅尝
往期很多文章都介绍了【文档智能】上布局识别(版式分析)的技术思路,版式分析是通过对文档版式进行布局识别,识别文档中的元素类型的过程。这次来看看一个有趣的思路,通过已有的元素类型,来生成可控的文档的布局。介绍之前,先概述下一些基础的概念。可控布局生成:在图形设计(例如文档和网页设计)中创建元素的合理视觉排列的过程,同时考虑到代表设计意图的约束条件。FID评价指标:FID(Fréchet Inception Distance)是一种用于评估生成模型和真实数据分布之间差异的指标。
2024-07-09 20:28:50 842
原创 【RAG】Dense X Retrivel:合适的检索粒度对RAG的重要性(浅看命题粒度的定义及分解方法)
在传统的密集检索中,常见的检索单元包括文档、段落或句子。然而,这些单元的选择可能会影响检索性能和下游任务的效果。例如,段落可能包含与问题无关的额外细节,而句子可能过于复杂或缺乏必要的上下文信息。为了解决这些问题,提出了使用“命题”作为新的检索单元。命题在文中被定义为文本中的原子表达,每个命题都包含一个独特的事实片段,并以简洁、自包含的自然语言格式呈现。例如,在讨论比萨斜塔的倾斜角度时,可以提取出以下命题:“比萨斜塔现在大约倾斜3.99度。”这个命题简洁地回答了问题,并且包含了必要的上下文信息。
2024-07-03 19:40:19 1122
原创 【数据集】最近开源的一些多模态图表理解数据集
现有数据集通常关注过于简化和同质化的图表,并且问题往往基于模板生成,这导致了对MLLMs图表理解能力的过度乐观评估。为了解决这个问题,作者提出了一个新的评估套件CharXiv,它包含了从arXiv论文中精选的2323个自然、具有挑战性和多样性的图表,并设计了两种类型的问题:描述性问题和推理问题,以全面评估MLLMs在图表理解方面的能力。数据集类型:图表结构提取、图表推理。
2024-07-03 19:39:08 569
原创 【RAG】FoRAG:面向网络增强型长形式问答的事实性优化RAG
清晰逻辑的缺失:与短答案的传统问答任务不同,LFQA任务中理想的答案往往需要多方面组织和整合信息,但现有的开源方法在生成答案时往往缺乏清晰的逻辑结构。提出了一种新的事实性优化框架,通过在评估和奖励建模中采用细粒度的设计,有效地提高了长形式问题回答中生成答案的事实性,同时减少了对人工标注的依赖。事实性不足:研究表明,现有系统生成的答案中只有大约一半的陈述能够完全得到检索到的参考资料的支持,这严重影响了这些系统的可信度。统计信息显示,使用提纲增强技术生成的答案比现有工作中的答案更长,其具有更强的逻辑结构。
2024-06-29 12:54:28 1018
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人