余俊晖-CSDN博客

原创 HMM（隐马尔可夫）中文分词

一、隐马尔可夫模型隐马尔可夫模型（Hidden Markov Model，HMM）是用来描述一个含有隐含未知参数的马尔可夫过程。1、举例理解假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。假设我们开始掷骰子，我们先

2020-09-19 10:52:39 6015 3

原创 TF-IDF算法和余弦相似度算法计算文本相似度（纯手撕）

一、TF-IDF算法 TF-IDF（term frequency–inverse document frequency，词频-逆向文件频率）是一种用于信息检索（information retrieval）与文本挖掘（text mining）的常用加权技术。 TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想是：如果某个单词在一篇文章中

2020-09-06 12:05:26 8758 4

原创正向最大匹配算法（中文分词）

一、最大匹配法最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。最大匹配算法有三种： 1、正向最大匹配 2、逆向最大匹配 3、双向匹配三种算法原理都一样，以正向为例，是从前向后扫描的过程。如下：二、使用北大训练集实现正向最大匹配1、数据集（从中选取北大的训练集）2、代码实现# -*- coding: utf-8 -*-"""@au

2020-08-30 17:49:42 13861 1

原创【LLM & 长文本】Infini-attention：高效无限上下文 Transformer

大型语言模型（LLMs）通过在Transformer架构中引入注意力机制而发生了革命性的变化。这些机制通过使模型能够专注于输入序列的关键部分，从根本上改变了模型理解和生成文本的方式。然而，随着模型变得更加复杂并处理越来越长的序列，出现了诸如注意力窗口和二次复杂度等挑战。为了应对这些问题，无限注意力（Infini-Attention）通过将压缩记忆模块整合到标准Transformer注意力机制中，无限注意力克服了这些限制，同时保持了效率。

2024-05-21 21:55:56 340

原创【LLM & RAG】RAFT：垂域知识微调LLM提升RAG表现

本文主要记录了RAFT方法如何构造训练数据，微调LLM提高对垂域知识的适应性，为大型语言模型在特定领域内的应用提供了一种有效的提升途径。

2024-03-30 15:16:57 1090

原创【文档智能 & LLM】LayoutLLM：一种多模态文档布局模型和大模型结合的框架

传统的文档理解任务，通常的做法是先经过预训练，然后微调相应的下游任务及数据集，如文档图像分类和信息提取等，通过结合图像、文本和布局结构的预训练知识来增强文档理解。LayoutLLM是一种结合了大模型和视觉文档理解技术的单模型方法，通过多模态指令数据集的微调来提高对图像文档的理解和分析能力。本文介绍了一种传统布局模型结合大模型做文档理解的方法：LayoutLLM。这个框架通过结合VrDU编码器来捕捉文档图像的特征，以及使用LLM作为解码器来处理任务指令，有效地提高了对文档图像的理解和分析能力。

2024-03-24 11:39:11 1069

原创【LLM】LongRoPE：LLM上下文窗口扩展方法及非官方实现

目前，大多数LLMs的上下文窗口限制在4k个标记左右，这意味着模型在处理超过这个长度的文本时性能会下降。新位置索引的未训练引入了许多灾难性值，导致分布外问题，使得微调难以收敛。微调通常需要相应长度的文本。然而，当前数据集中特别是超过1000k的长文本非常有限。此外，对超长文本进行训练计算成本高昂，需要大量的训练时间和GPU资源。当扩展到极长的上下文窗口时，注意力会变得分散，因为它需要在大量的标记位置上进行分配，这会降低模型在原始短上下文上的性能。

2024-03-23 21:10:38 1033

原创【文档智能】再谈基于Transformer架构的文档智能理解方法论和相关数据集

文档的智能解析与理解成为为知识管理的关键环节。特别是在处理扫描文档时，如何有效地理解和提取表单信息，成为了一个具有挑战性的问题。扫描文档的复杂性，包括其结构的多样性、非文本元素的融合以及手写与印刷内容的混合，都为自动化处理带来了难题。本文记录了基于Transformer架构的文档理解模型常见方法和相关数据集。文档理解本质上是一个序列标注任务，类似于命名实体识别（NER），通常被称为关键信息提取（KIE）。

2024-03-09 16:10:46 1089

原创 SORA技术解析

1.sora技术报告。

2024-03-06 09:35:00 177

原创【LLM & RAG】GritLM：统一嵌入和生成的大语言模型浅谈

目前，所有基于文本的语言问题都可以归结为生成问题，并通过单一的LLM来处理。然而，使用嵌入的任务（如聚类或检索）在这种视角下往往被忽视了。文本嵌入在许多关键的实际应用中扮演着重要角色。如RAG，在向量表征时，通过一些表征模型如：BGE、BCE等进行嵌入。因此，当前的方法在处理生成任务和嵌入任务时通常是分开的，这导致了效率和性能的损失。本文提出了GRIT（Generative Representational Instruction Tuning），这是一种统一嵌入和生成任务的方法。

2024-03-01 18:52:14 1350

原创多模态大型语言模型综述

这篇论文《The ®Evolution of Multimodal Large Language Models: A Survey》提供了对多模态大型语言模型（MLLMs）领域的全面回顾。引言：介绍了MLLMs的重要性，它们通过整合视觉和文本模态，提供了基于对话的接口和遵循指令的能力。论文强调了在这一领域进行研究的重要性，并概述了研究的三个核心方面：模型架构、训练方法和任务设计。赋予LLMs多模态能力。

2024-02-21 15:15:22 1101

原创 TOP RAG痛点思考及解决方案

幻觉和捏造指的是在大型语言模型（LLM）中，特别是在生成文本时，模型可能会产生虚构（hallucination）或捏造（fabrication）信息的问题。在大型语言模型中，个性化意味着模型需要能够理解并适应每个用户的特定需求，这在技术上可能非常复杂，因为需要处理大量的个性化数据，并且确保隐私和数据安全。这些因素都可能影响用户的真实意图和所需信息的类型。：经过投毒训练的模型可能会在实际应用中产生预期之外的行为，比如在图像识别中错误地分类图像，或者在自然语言处理中生成带有偏见或误导性的内容。

2024-02-06 08:53:59 721

原创【LLM & KBQA】FlexKBQA：一种结合LLM的KBQA框架

直接生成答案：一些方法直接利用LLMs生成答案，而不是生成中间的程序（如SPARQL查询）。这种方法通常依赖于模型的上下文学习能力，通过提供少量的示例（in-context learning）来引导模型理解问题并生成答案。程序生成：在某些情况下，LLMs被用来直接生成执行查询的程序，例如SPARQL查询。这种方法需要模型理解问题的结构，并能够将自然语言问题转换为有效的查询语言。语义解析：LLMs也被用于将自然语言问题映射到结构化的查询表示，如SPARQL。

2024-02-03 11:35:58 813

原创【LLM推理】Lookahead：一种无损推理加速机制

Lookahead框架的核心思想是利用多分支策略和Trie树结构来加速推理过程：多分支策略：传统的自回归模型逐个生成下一个词，而Lookahead框架通过并行生成多个分支（即多个可能的词序列），然后通过验证和接受（Verification and Accept, VA）过程来确定最终的输出。这种方法允许模型在每个推理步骤中生成更多的词，从而提高整体的推理速度。Trie树：在Lookahead框架中，Trie树用于记录输入和输出的词列表，使得模型能够基于上下文预测多条路径。

2024-01-27 10:15:42 1669

原创【LLM】FuseLLM：大模型融合trick-知识融合LLMs

传统的模型融合方法分为集成的方法和权重合并的方法，这两种方法在以往的NLP的比赛中非常常见，是一种提分手段。然而，上述两种方法都需要预训练或者微调相应的模型。在大模型场景下，对每个源模型都进行初始化成本太高，为了减少初始化源LLM的成本，使集成后的模型受益于所有源LLMs的优势。因此，本文介绍了一种知识融合的方法用来进行大模型的融合。FUSELLM提供了一种LLMs的集成方法，为大模型融合提供了一个trick，或许未来LLM比赛爆发的时候，最后大家涨分涨不动了，可以考虑下试一试这个trick。

2024-01-25 21:02:31 1145

原创【LLM问答】两阶段的对话式问答模型ChatQA思路和兼看两阶段的RAG知识问答引擎QAnything

ChatQA：这篇文章的两阶段微调的ChatQA模型，对于对话式问答任务，特别是处理长文档和需要检索的上下文时对话时，能够达到或超过GPT-4的性能水平。QAnything：介绍了基于微调的Qwen-7b，两阶段的RAG知识库问答引擎 QAnything，支撑任意格式的文档数据私有化进行知识问答。

2024-01-20 21:47:15 1591

原创 qwen在vLLM下的长度外推简易方法

在当前的版本vLLM中实现qwen的长度外推。

2024-01-17 16:04:37 721

原创【flash-attention】Building wheel for flash-attn (pyproject.toml) did not run successfully

【flash-attention】Building wheel for flash-attn (pyproject.toml) did not run successfully。

2024-01-09 16:37:43 1274

原创 vLLM部署推理及相关重要参数

vLLM部署推理及相关重要参数

2024-01-04 18:10:08 2538 1

原创【LLM】一种经过指令微调的文本嵌入模型

引入了 INSTRUCTOR，一种计算给定任务指令的文本嵌入的新方法：每个文本输入都与解释用例的指令（例如任务和域描述）嵌入在一起。与之前工作中更专业的编码器不同，INSTRUCTOR 是一个单一的嵌入器，可以生成针对不同下游任务和领域的文本嵌入，无需任何进一步的培训。首先对 330 个不同任务的指令进行注释，并在这种多任务混合上使用对比损失来训练 INSTRUCTOR。

2024-01-02 22:44:53 469

原创【qwen】DeepSpeed Zero-3 is not compatible with `low_cpu_mem_usage=True` or with passing a `device_map

DeepSpeed Zero-3的核心功能就是在显存不足的情况下，使用CPU内存。

2023-12-28 17:22:00 907

原创【预处理】大模型下开源文档解析工具总结及技术思考

本文介绍了一些常见的文档解析工具和实现方法以及文本分割模型在文档解析中的充当的角色，并提供了相关技术实现思路。当然，如果粗糙的进行文档处理也是可以的，常见的有，基于LangChain的文档处理方式，但其底层技术很多都是上述文档parser工具的集成。在面对复杂文档，解析时还是存在一定的困难，基于布局的多模态版面分析是值得研究的点。虽然目前百模支撑的上下文长度能cover一本书的长度，但真正落地实施起来效果一般。

2023-12-18 16:38:24 1353

原创 cannot import name ‘DEFAULT_CIPHERS‘ from ‘urllib3.util.ssl_‘解决

urllib3版本冲突问题。

2023-12-11 11:18:26 1338

原创【LM、LLM】浅尝二叉树在前馈神经网络上的应用

随着大模型的发展，模型参数量暴涨，以Transformer的为组成成分的隐藏神经元数量增长的越来越多。因此，降低前馈层的推理成本逐渐进入视野。前段时间看到本文介绍的相关工作还是MNIST数据集上的实验，现在这个工作推进到BERT上面来了，再次引起兴趣记录一下。该工作将前馈神经基于二叉树结构进行改装，加速前向传播的速度，称为：快速前馈网络（FFF），然后应用FFF，取代BERT中的前馈网络（FF），实现12个神经元加速推理。

2023-11-24 09:12:54 480

原创讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛-三等奖方案

本文公开了”讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛“赛道的技术方案，本次比赛主要采用pdf解析和特征工程的方法，通过使用lightgbm的树模型10折交叉验证进行二分类的任务，最终取得三等奖的成绩。本次比赛主要采用pdf解析和特征工程的方法，通过使用lightgbm的树模型10折交叉验证进行二分类的任务。

2023-11-07 10:07:00 440 1

原创【LLM】浅谈 StreamingLLM中的attention sink和sink token

本文介绍了关于 StreamingLLM中提到的关于attention sinks和sink token的原理。在原文中提到，通过引入“attention sinks”与最近的令牌配对，能够高效地处理长度达 4 百万令牌的文本。还通过使用具有专门的 sink token 的预训练模型，以此提高流式应用部署的性能。

2023-10-15 17:58:28 530

原创【文档智能】多模态预训练模型及相关数据集汇总

大模型时代，在现实场景中或者企业私域数据中，大多数数据都以文档的形式存在，如何更好的解析获取文档数据显得尤为重要。文档智能也从以前的目标检测（版面分析）阶段转向多模态预训练阶段，本文将介绍目前一些前沿的多模态预训练模型及相关数据集。本文简单介绍了文档智能领域关于多模态预训练语言模型相关内容及相关数据集，相对于基于目标检测（版面分析）的pipline形式，多模态预训练模型能够一定程度的实现端到端的提取文本内容。但实际应用还需要根据特定的场景进行进一步的研究。

2023-10-15 17:54:24 741

原创【文档智能】：GeoLayoutLM：一种用于视觉信息提取（VIE）的预训练模型

文章介绍了一种用于视觉信息提取（VIE）的预训练模型：GeoLayoutLM。GeoLayoutLM通过显式建模几何关系和特殊的预训练任务来提高文本和布局的特征表示。该模型能够提高文档信息抽取的性能。该文章提出GeoLayoutLM，一个用于VIE的几何预训练框架。定义了三种不同层次的几何关系：GeoPair、GeoMPair和GeoTriplet。相应地，引入了三个专门设计的预训练目标来明确地建模几何关系。相较于LayoutLMv3，在关系抽取上取得了非常好的性能，为文档智能的布局理解提供了新的思路。

2023-09-29 10:59:02 567

空空如也

空空如也