余俊晖-CSDN博客

原创【多模态&LLM】Reyes：一个从0到1开始训练的多模态大模型（技术报告）

本文记录了从0到1实现一个多模态大模型的过程，包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐，并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b，当前训练数据因为只采用了图文多模态数据，在SFT阶段，并未加入text-only数据，因此，语言模型端会出现一些退化。将来若有时间，会考虑加入更多的多模态数据及笔者私有数据进行训练（如：《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》），打造更强的Reyes模型。

2025-01-12 14:14:25 1613

原创【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路

现阶段，尽管大模型在生成式问答上取得了很大的成功，但由于大部分的数据都是私有数据，大模型的训练及微调成本非常高，RAG的方式逐渐成为落地应用的一种重要的选择方式。然而，如何准确的对文档进行划分chunks，成为一种挑战，在现实中，大部分的专业文档都是以 PDF 格式存储，低精度的 PDF 解析会显著影响专业知识问答的效果。因此，本文将介绍针对pdf，介绍一些pdf结构化技术链路供参考。

2024-06-10 16:33:06 5914

原创正向最大匹配算法（中文分词）

一、最大匹配法最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。最大匹配算法有三种： 1、正向最大匹配 2、逆向最大匹配 3、双向匹配三种算法原理都一样，以正向为例，是从前向后扫描的过程。如下：二、使用北大训练集实现正向最大匹配1、数据集（从中选取北大的训练集）2、代码实现# -*- coding: utf-8 -*-"""@au

2020-08-30 17:49:42 14824 1

原创开源大模型如何选择？GPT-OSS综合评估

分析揭示了不同的响应长度模式，与推理优化架构相比，GPT-OSS 模型展现出显著简洁的输出参考文献：Is GPT-OSS Good?

2025-08-20 09:59:27 415

原创 RAG精度瓶颈破局：结构化解析如何将知识库准确率拉满

文档解析是一款大模型友好的解析工具，能够精准还原pdf、word、excel、ppt、图片等十余种格式的非结构化文件，将其快速转换为Markdown或JSON格式返回，同时包含精确的页面元素和坐标信息。支持识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等各种元素，并支持印章、二维码、条形码等子类型，为LLM推理、训练输入高质量数据，帮助完成数据清洗和文档问答任务，适用于各类AI应用程序，如知识库、RAG、Agent或其他自定义工作流程。

2025-08-20 09:58:56 947

原创 GLM-4.5V多模态核心架构设计和数据构建速览

快速看一下GLM-4.1V多模态方面架构和数据方面的特点。

2025-08-17 13:07:59 797

原创高质量多模态训练数据生成思路-SynthVLM

针对高质量、精确对齐的图像 - 文本对稀缺，提出一种新的数据生成管道 SynthVLM ，用于生成图像 - caption 对：SynthVLM - 100K，并通过微调模型，SynthVLM-100K 上预训练的模型就超越了依赖 LLaVA - 558K 的基准方法，方法简单直接，下面看看。

2025-08-17 13:07:29 433

原创多模态大模型统一布局生成方法微调数据集设计及模型架构统一训练思路

数据规模任务类型样本量（训练/测试）核心约束典型场景BFEF1.9万/0.1万无背景/元素内容文档排版BCEF3.1万/0.1万给定背景，自由元素固定背景海报BFEC1.9万/0.1万自由背景，给定元素（产品+文案）电商海报BCEC2.7万/0.1万给定背景+元素复杂营销海报数据来源：整合公开数据集（CGL-Dataset、PubLayNet）+ 自研EP-Layout（电商场景），确保多样性。

2025-08-17 13:06:58 830

原创多模态大模型中高分辨率处理trick-通过自适应路由选择模块动态选择合适粒度

前期几篇内容介绍了原生分辨率及相关评估：《》和《》，再来看一个关于多模态大模型处理不同分辨率的trick，提到。

2025-08-17 13:06:28 896

原创多模态大模型中图像分辨率packing策略及原生分辨率NaViT的部分结论

传统上，ViT会将输入图像调整为固定的正方形纵横比，然后分割为固定数量的 patches。但这种做法存在局限性，例如可能破坏图像的原始纵横比，影响模型对图像内容的理解，且在训练和推理效率上有提升空间。前期《》评估结论也通过评估得到，原生分辨率对于多模态大模型有增益，再来看下NaVit的原生分辨率packing策略，该工作由23年提出，但应该是比较早的原生分辨率探索，下面看看。

2025-08-17 13:05:57 570

原创多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估

通过提升位置编码的分辨率，整合多尺度图像表征。代表：Qwen-VL、S² extension，通过扩展视觉特征的分辨率范围适配高分辨率输入。围绕图像的预处理，包括归一化、缩放、裁剪、根据宽高比动态处理等操作如下图：预设一个默认分辨率，称之为tile，随后将图片切分成子图，每个子图的shape与tile一致，再在batch维度做拼接。tiling还会将原图也resize到tile的shape，和子图拼接在一起，以保留全局信息。

2025-08-03 13:57:57 671

原创图像、视频、音频多模态大模型中长上下文token压缩方法综述

多模态大模型MLLMs 能够处理高分辨率图像、长视频序列和冗长音频输入等复杂上下文，但自注意力机制的二次复杂度使得大量输入 token 带来了巨大的计算和内存需求。如下图，上：图像、视频和音频数据类型可以在其表示维度上进行扩展，从而导致 token 数量的相应增加。下：表。因此 token 压缩对于解决这一限制至关重要。

2025-08-03 13:57:26 774

原创 LLM+KG+Agent的Text2SPARQL多语言KBQA智能体框架—mKGQAgent

前面笔者介绍了《》及《》，一般的Text2Sparql/Text2SQL技术路线图如下，目标是奖自然语言转话为可查询的SQL语句。目前基于KG+LLM+Agent的KBQA方案，在多语言场景未得到充分探索。下面来看一个智能体框架-mKGQAgent，通过模拟人类推理过程将自然语言问题转化为SPARQL查询。

2025-07-31 18:19:33 992

原创 GSPO梯度推导过程

次梯度与期望的互换：GSPO目标JGSPOθJGSPOθ是对从与策略参数θ\thetaθ无关的分布中采样的数据的期望。由于“min”和“clip”操作，内部损失函数不可微。我们使用次梯度微积分，并通过调用次梯度的控制收敛定理来证明次梯度与期望算子的互换是合理的。严格证明：为了严格应用该定理，首先证明一个界定标量损失函数次梯度的关键引理。引理（次梯度界）：令Fsmin⁡sAiclips1−ε1εAiFsminsAiclips1−ε。

2025-07-31 18:18:24 1092

原创 Agent上下文工程：如何构建可靠的AI Agent

manus:Peak在 Manus 项目伊始，我和团队就面临一个关键抉择：是利用开源基础模型训练一个端到端的智能体，还是依托前沿模型的上下文学习能力，在其之上构建智能体？在我投身 NLP 的第一个十年里，我们并没有这种奢侈的选择。遥想当年 BERT 问世（没错，那已是七年前），模型必须先经过微调——还要评估——才能迁移到新任务。每次迭代往往耗时数周，尽管那时的模型体积与今日的 LLMs 相比微不足道。对于快速迭代的应用，尤其是 PMF 之前的阶段，如此缓慢的反馈循环几乎是致命的。

2025-07-27 14:40:30 1013

原创 GRPO强化学习缓解多模态大模型OCR任务的幻觉思路及数据生成思路

多模态大模型在“看不清”文字时瞎编答案，称为“OCR幻觉”，如下图，主要有几点：（1）预训练阶段缺乏相关数据：关键信息提取（KIE）数据以及退化视觉场景的清晰标注显著不足，限制了模型处理复杂视觉输入的能力。指令微调阶段忽视退化场景：现有研究通常假设 OCR 任务输入为非退化图像，导致模型缺乏处理真实世界退化文档（如模糊、遮挡、低对比度）所需的推理能力。下面来看看一个思路。供参考。

2025-07-27 14:39:14 1117

原创标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝

Agentar-Fin-R1 的开发pipline可概括为五个闭环阶段，每一阶段都有明确输入、处理逻辑和输出。

2025-07-27 14:38:44 838

原创多模态视觉语言模型FILA-细粒度分辨率融合策略

上图是四种在图片切图上的操作：如动态分辨率仅涉及裁剪图像并将其输入CLIP-ViT、mini-gemini在最后层将低分辨率的CLIP-ViT特征与高分辨率辅助分支进行交互，主要使用交叉注意力机制，c则采用通道级串联。本文介绍的方法使用一个模块将低分辨率和高分辨率进行融合实现交互，下面来看看如何实现。

2025-07-27 14:38:06 807

原创 GRPO强化多模态大模型目标检测能力奖励函数代码设计

多模态大模型的目标检测任务可以通过GRPO训练增强，因此今天本文介绍的代码适用于。

2025-07-20 18:15:33 352

原创构建多模态大模型trick探究及六大结论

实验设计：（1）使用Perceiver Resampler（可学习的Transformer池化器）将图像token从729压缩到更少。（2）测试不同压缩数量：128 vs 64。实验设计：图像切分:在训练时将每张图像切分为4个子图 + 原图 = 5张图,每张图仍送入模型 → 总token数从64 → 320,仅在指令微调阶段使用此策略。实验设计对比：（1）强制resize为768×768正方形；1、视觉/语言主干是否同等重要？

2025-07-20 18:15:02 975

原创将R1的思路引入多模态大模型的RL训练配方-Skywork-R1V3

来看一个实验比较扎实的工作，Skywork-R1V3将R1的思路引入多模态大模型，提出：直接将RL技术从仅文本的大语言模型转移到VLMs是不够的，需要开发VLM特定的RL配方。下面来看看如何在VLM中引入COT的RL，供参考。

2025-07-10 11:40:30 388

原创快手Kwai Keye-VL多模态大模型模型架构、训练策略、数据情况

快速看一下Kwai Keye-VL的技术报告，

2025-07-09 19:18:42 1074

原创多模态偏好数据集生成与混合偏好优化（MPO）方法

每个数据样本包括一张图像。

2025-07-06 20:04:41 1030

原创用于实时工业社区问答的RAG新框架-ComRAG

社区问答（CQA）是一种协作式的问答模式，用户可以在在线平台上发布问题，社区成员则提供答案。这种模式利用集体智慧，通过投票、评论和编辑等方式不断优化答案，从而提高共享知识的质量。随着LLMs的兴起，LLMs已成为CQA的强大工具。然而，。文档将实时CQA任务形式化为一个数学问题。给定一个外部知识文档集合Ddii1∣D∣，以及一个连续到达的社区问题流，假设在某一时刻已经收集到的社区历史为H{(qiaii1∣H∣，其中qi是问题，ai。

2025-06-30 13:13:31 965

原创 RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架

本文从EasyDoc这个新的文档解析产品再次回顾了文档解析相关技术路线，并结合笔者深度体验了下EasyDoc的相关差异化的点，如：多模态图表理解、文档层次化树的构建等创新亮点，得出结论：小模型和多模态的模型可以协同创新解决文档结构化的难点。并且，RAG知识库的构建出了精确提取文档内容之外，还可以利用文档结构化层次树搞出一些新的玩法，比如如何像EasyDoc一样构建DocGraph，如何将DocGraph进一步的融入RAG系统，提升RAG系统性能。

2025-06-30 13:07:08 911

原创 GraphRAG变种：HippoRAG进化到HippoRAG2.0,提升多跳复杂推理性能

前面文章如下表经过评测提到：HippoRAG2生成的图更为密集，提高了信息连接性和覆盖范围。并且这种变种的GraphRAG在需要多跳推理和上下文综合的任务中表现优异。下面我们来看一看HippoRAG2如何通过增加知识图谱等结构来增强向量嵌入，以解决一些差距，即理解和关联性。供参考。

2025-06-23 16:13:01 1104

原创 Qwen3 Embedding模型架构、训练方法、数据策略

中提取的。没有额外池化头，推理路径更短。为了确保嵌入在下游任务中遵循指令，将指令和查询连接成一个单一的输入上下文，而文档保持不变，然后通过LLMs进行处理。

2025-06-21 17:23:03 1044

原创增加定位能力提升图表问答性能，新的图表理解框架-RefChartQA

现有工作主要包括图表问答（Chart QA）基准、图表理解模型和视觉答案定位（VAG）。Chart QA基准如FigureQA、DVQA、PlotQA和ChartQA等，主要集中在图表问答任务上，但缺乏显式的视觉定位，从而忽略了VLMs在ChartQA上的可解释性。RefChartQA通过将Chart QA与视觉定位相结合，并提供了一个新的基准测试，使模型能够引用图表图像中的多个粒度元素。该基准扩展了现有的ChartQA资源，专注于涉及算术或逻辑推理的问题。

2025-06-20 18:59:31 415

原创 GRPO训练布局感知的强化学习多模态文档解析框架-Infinity-Parser

前期《》专栏详细中介绍了文档智能解析详细pipline链路技术方案，如下图：现在来看一个新思路，指出pipline链路依赖大量标注数据、并且会出现错误传播问题，导致解析效果不佳，故提出一个基于布局强化学习（layoutRL）的多模态大模型的端到端的解析框架，通过强化学习（GRPO）的方式训练模型的布局感知能力。（ps：笔者看来，在通用场景下解析效果也能并不会有文中评价的那么好，但这个数据合成思路及强化学习的训练方式可以参考。

2025-06-15 17:05:39 1022

原创使用RAG的思想进行PPT生成的框架思路-SlideCoder

手动创建幻灯片既费时又费力，如何从参考图像自动生成可编辑的幻灯片？现有的问题：如Autopresent的方法，通过构建大批量的SFT数据生成ppt代码来生成ppt。然而，自然语言描述，LLMs在处理复杂PPT时存在局限性，特别是包含多样元素类型和高元素密度的情况；。往期介绍的相关ppt生成框架，如：《》、《》都提到，对于ppt生成或者海报生成都很重要。SlideCoder提出一个基于RAG的思想-。

2025-06-13 18:51:08 1405

原创 GraphRAG变种这么多，该采用哪种？九大GraphRAG评估参考

见《本文，再来看一个评估工作，同样是一个GraphRAG-bench，也再次通过评估得出，并且系统的（RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP和ToG）在这个benchmark上的性能，供参考。

2025-06-13 09:48:27 412

原创什么时候用GraphRAG？RAG VS GraphRAG综合分析

最近的研究报告称，在许多实际任务中，GraphRAG的表现往往不如普通的RAG。因此产生一个问题：GraphRAG真的有效吗？在哪些场景下，GraphRAG有收益？为了解决这个问题，提出GraphRAG-Bench，这是一个评测GraphRAG的基准，目的是评估GraphRAG模型在层次知识检索和深度上下文推理方面的性能。文章指出的评测方式及评测结论可以参考。

2025-06-09 18:52:34 1151

原创 GraphRAG优化新思路-开源的ROGRAG框架

目前的如微软开源的GraphRAG的工作流程都较为复杂，难以孤立地评估各个组件的贡献，传统的检索方法在处理复杂推理任务时可能不够有效，特别是在需要理解实体间关系或多跳知识的情况下。先说结论，看完后感觉这个框架性能上不会比GraphRAG高，仅在单一数据集上进行了评测，不过优化思路可以借鉴下，比如：双层次检索提高图检索准确性等。供参考。

2025-06-09 18:51:49 446

原创改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG

给定一个问题Q，基于图的RAG的关键思想是从图中检索相关信息（例如，节点、子图或文本信息），将其与Q一起作为提示，然后输入到LLM中。如下图：因此，现有工作的工作流主要包括两个阶段：(1)：从给定语料库D构建知识图谱G(V,E)，其中每个顶点代表一个实体，每条边表示两个实体之间的关系，并基于知识图谱构建索引。(2)：使用索引从知识图谱中检索相关信息（例如节点、子图或文本信息），并将检索到的信息提供给大型语言模型以提高响应的准确性。

2025-06-04 15:48:57 934

原创基于KG生成语料增强解决RAG问答幻觉问题的简单框架-Walk&Retrieve

Walk&Retrieve基于知识图谱，利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单，核心点在于，下面来看看，供参考。

2025-05-29 14:38:53 752

原创使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster

最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案，和，传统方案如类似ppt生成等思路，基本上采用固定的模版，提取相关的关键元素进行模版填充，因此，海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路，覆盖多种技术链路，如：文档智能解析、LLM、布局生成、Agent等。比如有趣，下面来看看这两个技术方案，供参考。学术海报在科学交流中起着至关重要的作用，需要在有限的页面上压缩长篇幅的多模态文档。

2025-05-28 16:25:35 1285

原创字节开源的多模态端到端文档解析模型-Dolphin

前期介绍了一些pipline的文档解析实现路线和端到端的多模态解析方案，整理在：《下面来看一下字节最新开源的多模态文档解析方案，笔者实际测下来性能还有待提升（鉴于合成数据，泛化性还较差，存在幻觉），不过思路可以借鉴下，供参考。

2025-05-26 17:19:48 921

原创 Qwen3模型架构、训练方法梳理

qwen3炼丹真是全是技巧，下面来看看，仅供参考。

2025-05-14 13:25:05 1367

原创通用RAG：通过路由模块对多源异构知识库检索生成问答思路

如何在多个语料库（多源异构知识库，如：文本、图片、视频）中检索和整合来自不同模态和粒度的知识？UniversalRAG：一种新的RAG框架，用于从多个模态和粒度的语料库中检索和整合知识。下面来看看思路，供参考。

2025-05-12 19:51:44 956

原创多模态文档检索开源方案-三大竞赛获奖方案技术链路

前期也提到，在实际场景中，用户通常需要检索多模态文档，包括文本、图像、表格和图表。这需要一个更复杂的检索系统，能够处理多模态信息，并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。提到的诸多方案。下面来看看www会议开设的挑战赛的三个获奖方案。概述：多模态文档检索任务专注于对多模态文档或网页中的段落进行建模，利用文本和多模态信息进行嵌入建模。最终目标是根据用户的文本或多模态查询检索相关的多模态文档或段落。

2025-05-08 21:26:06 695

空空如也

空空如也