自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(286)
  • 收藏
  • 关注

原创 【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)

本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。

2025-01-12 14:14:25 1778

原创 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路

现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以 PDF 格式存储,低精度的 PDF 解析会显著影响专业知识问答的效果。因此,本文将介绍针对pdf,介绍一些pdf结构化技术链路供参考。

2024-06-10 16:33:06 6415

原创 正向最大匹配算法(中文分词)

一、最大匹配法  最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。最大匹配算法有三种:  1、正向最大匹配  2、逆向最大匹配  3、双向匹配  三种算法原理都一样,以正向为例,是从前向后扫描的过程。如下:二、使用北大训练集实现正向最大匹配1、数据集(从中选取北大的训练集)2、代码实现# -*- coding: utf-8 -*-"""@au

2020-08-30 17:49:42 15041 1

原创 多模态大模型文档解析开源新进展:Qianfan-OCR模型架构、数据引擎、训练方法

继续跟进【】解析进展。在前期专栏中总结过,文档解析范式分三个:(1)基于ocr-pipeline;(2)基于layout+vlm的两阶段;(3)基于vlm端到端;Qianfan-OCR是一个4B参数量的端到端的多模态文档解析模型,,其方法体系围绕四大核心展开,下面来看看方案。

2026-03-21 13:04:05 409

原创 多模态文档解析新进展:多模态OCR解析文档中的任意内容实现方案

将。

2026-03-21 13:03:34 443

原创 多模态大模型后训练强化学习训练方法:Shuffle-R1

LLM/MLLM RL微调的时大概率都踩过这个致命的坑:90%的GPU算力都花在了rollout采样上,可模型精度就是纹丝不动;训到后期看梯度,几乎全是接近0的无效值,烧了算力,全做了无用功。没有卷更复杂的策略梯度算法,也没有堆更花哨的奖励函数设计,而是回归「数据」这个最本质的问题,用一套简单的方案提升RL训练效率。

2026-03-21 13:03:04 400

原创 多模态文档解析最新开源进展:2B参数FireRed-OCR模型方法、数据

继续跟进【】解析进展,小红书今天又开源了一个多模态文档解析模型:基于qwen3-vl-2B参数微调训练的参数量的FireRed-OCR,与paddleocr-vl等不同的是Layout阶段采用的也是2b的模型(整体方式与mineru2.5相似)。下面来看看整体的方法。

2026-03-21 13:02:32 342

原创 Qwen3-VL-0.6B?Reyes轻量化折腾:一个从0到1开始训练的0.6B参数量的多模态大模型

标题一次,非Qwen3-VL-0.6B官方。最近手里有一台昇腾910B的服务器,顺便摸索下国产芯片的训练都有哪些坑,笔者时隔一年对Reyes《》进行了改造,原本的Reyes由8B的参数构成(InternViT-300M-448px-V2_5+Qwen2.5-7B-Instruct),随着端侧模型的发展与手里资源的限制,最终笔者将Reyes参数量设置成0.6B,训练了一个轻量化的多模态模型,最终在MMMU-benchmark取得了38.7的得分。

2026-02-01 16:25:41 548

原创 多模态文本智能白皮书发布!5大能力标准、11个行业案例全解析(附下载) 图片

这份白皮书不仅提出了一套完整的复杂文本智能五大核心能力标准,更通过11个真实行业标杆案例,全景展示多模态文本智能技术如何深入业务场景,将文档转化为决策力。企业累积的非结构化文档:合同、票据、物流单证、产品文档、检测报告等,都是亟待激活的数据资产。白皮书还以研报、年报、标书、标准、财务票据、物流单证等典型复杂文本为例,可视化地展示了上述能力在各场景中的实际应用效果。多模态解析能力:让AI“看懂”文档中的表格、图表、印章、手写体与复杂版式。🔥11个行业标杆案例,覆盖金融、物流、能源、财务四大领域。

2026-01-31 12:40:46 370

原创 多模态视觉语言模型:Molmo2训练数据、训练配方

Molmo2 的训练设计围绕“从专到博、效率优先”原则:先通过图像预训练夯实基础,再用多源混合数据扩展多模态能力,最后通过长上下文微调补全短板;同时以 Token 加权、Packing、消息树等技巧解决多模态训练的核心痛点,最终实现“开源模型中视频接地性能领先”(如视频指向 F1 38.4 超越 Gemini 3 Pro 的 20.0)。

2026-01-31 12:39:24 571

原创 多模态文档解析开源新进展-DeepSeek-OCR2.0架构、数据、训练方法

DeepSeek-OCR2.0是DeepSeek-OCR(《》)的后续,其是一个的多模态文档解析模型,也是Vary、GOT-OCR2.0的后续,前期也有详细介绍《DeepSeek-OCR 2 对上一代的优化主要是编码器上的改进,如下图:用 LLM 式架构替换了 DeepEncoder 中的 CLIP 模块。通过定制化注意力掩码,视觉 token 采用双向注意力机制,而可学习查询则采用因果注意力机制。

2026-01-31 12:38:22 725

原创 多模态文档智能解析开源进展:针对形变文档优化的PaddleOCR-VL-1.5架构改进点

解析太卷了,在前面《》介绍,PaddleOCR-VL在上个版本中提供了两阶段的文档解析pipeline(layout+vlm),其中layout主要采用的是矩形标注的方式,因此,在面对文档弯曲、倾斜等形变场景下,鲁棒性不足。为此PaddleOCR-VL-1.5主要升级了layout版式分析侧的模型,采用多边形标注的方式训练layout检测模型以支持形变场景的文档解析。架构变化如下图:能力变化:通过支持不规则形状定位,引入了一种创新的文档解析方法,可在倾斜和扭曲的文档条件下实现精确的多边形检测。

2026-01-31 12:37:51 410

原创 多模态文档智能解析持续开源进展:Youtu-Parsing模型架构、数据、训练方法

传统文档解析(如OCR、表格/公式识别)依赖自回归解码序列生成效率低:令牌(Token,如字符、符号)需逐一生成,每步仅能生成1个token,面对长文本(如表格、多列文档)时 latency 极高;多区域处理冗余:传统VLMs需按顺序处理文档中的多个元素(如文本块、表格、公式的边界框),重复调用模型导致计算冗余。(ps:这点可能是为了写论文需要,其实可以在工程侧进行优化,比如借助VLLM框架进行batch推理提升吞吐量)。

2026-01-31 12:37:19 725

原创 3秒实现语音克隆的Qwen3-TTS的Qwen-TTS-Tokenizer和方法架构概览

Qwen3-TTS开源了一系列TTS模型,本文快速看一下【Qwen-TTS-Tokenizer】(语音表示基础)与【模型架构、训练与能力实现】两部分。

2026-01-24 17:56:30 560

原创 多模态文档解析开源进展:端到端OCR模型LightOnOCR-2-1B架构、效果测试

多模态OCR赛道依旧卷,继续看一下新的多模态文档解析模型-LightOnOCR-2-1B系列,按照之前的划分(),这是一个,这个模型开源了其两个用于训练的开放标注数据集:lightonai/LightOnOCR-mix-0126一个包含超过 1600w标注的文档页面,另一个lightonai/LightOnOCR-bbox-mix-0126包含近50w标注,包括图形和图像的边界框。

2026-01-24 17:55:57 506

原创 强化学习GRPO(格式奖励)在多模态文档解析中的运用方法

现有的多模态文档解析模型在对ocr(公式、表格)等进行格式化解码时,解码不是特别稳定,如下图:基于视觉语言模型(VLM)的端到端方法虽简化流程,但在处理公式、表格等格式化文本时,输出熵值(不确定性)远高于纯文本(常相差一个数量级)。格式化文本的高熵特性源于其存在多种语义等价的表达形式(如1/2与),这些高熵样本可引导模型探索多样化推理路径,为强化学习(RL)提供有效反馈。,因此,提出了方法,核心是通过“感知后推理”的两阶段训练范式,实现格式化内容的精准识别。多模态文档解析的开源项目模型技术方案都在《

2026-01-24 17:55:24 628

原创 Qwen3-VL-Embedding/Reranker模型架构及训练策略

之前介绍了《》的开源模型,为纯文本RAG的检索阶段提供了一个优秀的向量模型。Qwen3-VL-Embedding(嵌入模型)和Qwen3-VL-Reranker(重排序模型)的模型,下面这张图中的各个模态数据就不需要专有的模型进行向量化了。

2026-01-10 16:31:23 1407

原创 MiroThinker 研究智能体数据集构建、三阶段渐进式训练方法

MiroThinker采用单智能体ReAct框架,以“思考(T)-行动(A)-观察(O)”三元组构成交互轨迹,形成迭代循环。图左侧三大工具:执行环境(执行Shell命令和Python代码等)、文件管理、信息检索:包含谷歌搜索工具(返回结构化结果)和网页抓取工具(结合轻量LLM提取任务相关信息)。

2026-01-10 16:30:44 822

原创 公式推理数据集构造方法及RAG等公式数值推方案评估

现有数值推理数据集(如 GSM8K、Math23K-F、MAWPS-F 等)在支撑 “领域特定公式引导的复杂推理” 任务时存在不足,公式类问题也以 “常识公式” 为主(如total_amount = unit_amount × total_number),未涉及物理、化学等领域的专业公式。这种 “隐性知识依赖” 导致 LLM 在推理时易出现幻觉—— 由于缺乏明确的公式约束,模型可能凭空生成错误的推理逻辑(如混淆 “热量计算” 与 “功率计算” 的公式),而现有数据集无法评估模型对 “显式公式的应用能力”。

2026-01-10 16:30:07 447

原创 多模态文档解析模型进展:UNIREC-0.1B架构、数据情况、实际测试

UNIREC是一个0.1B参数量的模型,整体pipline遵循。从这个模型可以看一个趋势,VLM-OCR正在朝参数小进化。下面来看简单看下模型架构、数据情况、实际测试,性能实际测下来一般,仅供参考。文档解析的开源项目模型技术方案都在《

2026-01-10 16:29:32 480

原创 强化学习中的熵坍缩

高熵:模型生成选择多样,探索性强,可能发现更优推理路径;低熵:模型生成趋于确定,过度依赖已有策略,缺乏创新探索。熵坍缩(Entropy Collapse):如下图左,在RL的训练初期(无熵干预的RL训练),模型的熵会急剧下降。随着熵的下降,准确率会迎来一个快速增长期。但是,随着熵的迅速耗尽会导致模型过度自信,探索能力随之减弱。前200步(1/12训练总量):消耗73%熵,获得76%性能提升;前800步(1/3训练总量):消耗94%熵,获得93%性能提升;

2026-01-10 16:28:51 1036

原创 多跳多模态知识图谱增强的检索增强生成方法:M3KG-RAG

M3KG-RAG通过“高质量多跳MMKG构建+精准检索与知识修剪”的端到端框架,为多模态大语言模型(MLLMs)提供查询对齐、支持回答的音视频知识,提升推理深度与回答忠实度。

2026-01-10 16:28:09 1063

原创 多页文档理解强化学习设计思路:DocR1奖励函数设计与数据构建思路

传统GRPO适用于单图/单页任务,无法解决多页文档的两大关键问题:1、需从多页中筛选少量相关证据页;2、需平衡证据检索与答案生成的可靠性。EviGRPO是基于GRPO改进的强化学习框架,专门针对多页文档理解优化——先全局理解文档并定位相关证据页,再基于证据页细粒度推理生成答案,而非直接生成结果。

2026-01-10 16:27:22 899

原创 英伟达GDPO多奖励强化学习算法在多项任务上超越GRPO

正如上期文章介绍的《》:GRPO的奖励信号坍缩(Reward Collapse)当GRPO应用于多奖励场景时,会导致:如下图左边例子,例如两个二元奖励(0/1)的场景中,GRPO会将(0,1)、(0,2)、(1,2)等不同奖励组合,统一映射为(-0.7071, 0.7071)的优势值,无法区分“满足1个奖励”和“满足2个奖励”的差异。:降低训练信号的分辨率,导致策略更新不准确、收敛次优,甚至早期训练失败(如GRPO在数学推理任务中400步后正确性奖励下降)。关于GRPO:《

2026-01-10 16:25:56 1350

原创 工业标准文档的本体知识图谱构建与 KG-RAG 应用

看一个结合文档解析、本体知识图谱构建与KG-RAG 应用的方案。

2025-12-20 16:03:15 723

原创 左脚踩右脚:大模型的有趣且简单的微调方式“SHADOW-FT”

大语言模型的微调主要分为两类:全参数微调和参数高效微调(lora等)。直接对 Instruct 模型进行调优通常仅带来微小的提升,甚至导致性能退化。Base 模型与Instruct 模型权重值高度相似。Base 模型往往是一个良好的学习器,但在后训练前较弱。因此,通过利用对应的Base 模型来调优 Instruct 模型。核心思想是先微调 Base 模型,然后将学成的权重更新 直接赋予 Instruct 模型。正就是Shadow-FT 理念,不引入额外参数,实现简单。

2025-12-20 16:02:39 631

原创 文档智能解析新进展:字节多模态解析模型dolphin-v2开源

继上次《》开源以来,最近新开源了Dolphin-v2版本,这个版本基于qwen2.5vl-3B训练得到,该模型的分两个阶段:版式分析、阅读顺序和OCR format,与mineru2.5一样,各阶段训练在一个模型,通过prompt控制。文档解析的开源项目模型技术方案都在《

2025-12-20 16:02:08 377

原创 使用Agent做本体匹配的架构设计

Os​Ot​A{(ei​ej​∣ei​∈Os​ej​∈Ot​核心逻辑:将“检索→匹配”流程,拆分为两个共享内存的代理(),配合规划模块、OM工具集和混合数据库,实现高效、低幻觉的匹配。

2025-12-20 16:01:34 506

原创 从豆包手机等看GUI Agent:MobileRL GUI Agent训练框架和安卓XML预处理

以上相关技术汇聚就是目前比较火的“GUI Agent”,顺藤摸瓜的翻到了一篇关于移动端GUI Agent训练框架-(也是用于Agent Auto GLM训练的框架)。下面来看看都解决了什么问题。视觉语言模型(VLM)(如 Qwen2.5-VL、GLM-4.1V)让 “零样本交互网页 / 移动界面” 的 GUI Agent成为研究热点。这类Agent可通过感知屏幕截图 + 解析 UI 结构,自主执行点击、滑动、输入等操作,无需人工干预,理论上能适配各类移动应用(如日历、购物、地图 APP)。

2025-12-20 16:00:24 1510

原创 Qwen:Gated Attention为何简单高效并能消除Attention Sink?

论文中乘法型(尤其是sigmoid激活的乘法型)表现最优。粒度:Elementwise:门控分数与 $ Y $ 维度完全一致(如 $ Y $ 为 $ n \times d_k $,则门控分数也为 $ n \times d_k $),实现逐元素的精细调制,且增加参数极少;其中 $ \text{head}_i = \text{Attention}(QW_Q^i, KW_K^i, VW_V^i) $,拼接后的输出维度为 $ \mathbb{R}^{n \times (h \cdot d_k)} $。

2025-12-06 16:22:25 1366

原创 多模态视觉语言模型增强原生分辨率继续预训练方法-COMP架构及训练方法

原生分辨率在前期介绍了多期,相比固定分辨率,原生分辨率在多种任务上尤其是OCR任务上效果显著。那么如何在一些现有的视觉模型(如:SigLIP、AIMv2)上继续训练让多模态视觉语言模型支持原生支持任意分辨率图像输入?下面简单看一下一个多模态继续预训练框架-COMP(Continual Multimodal Pre-training)。

2025-12-06 16:21:21 393

原创 Qwen3-VL技术报告:模型结构、训练方法浅尝

Qwen3-VL技术报告最近放出,接着《》,在前期从huggingface的源码上看了Qwen3-VL的改进点:《现在再简单过一下模型架构、训练方法,仅供参考。

2025-12-06 16:20:48 1363

原创 多模态文档解析模型新进展:腾讯开源HunyuanOCR-0.9B模型架构、训练配方

继续跟进《》,最近多模态的文档解析模型一个接一个开源《下面继续看看腾讯开源的。HunyuanOCR的OCR任务(文本检测与识别、文档解析、信息提取与视觉问答、文本图像翻译)。

2025-12-06 16:20:14 729

原创 多模态文档智能解析模型进展-英伟达NVIDIA-Nemotron-Parse-v1.1

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1。模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像。

2025-12-06 16:19:14 462

原创 大模型网页数据清洗工具思路:MinerU-HTML

网页数据是大模型预训练的核心来源(如Common Crawl),但需先将HTML转换为结构化文本。现有工具(Trafilatura、Resiliparse)依赖(如文本密度、DOM树遍历规则),导致代码块、公式、表格等结构化元素丢失或损坏,进而影响大模型预训练效果。。

2025-12-06 16:18:42 904

原创 多模态大模型Detect Anything量化坐标设计思路

本文仅看Rex-Omni中关于坐标量化的思路。Rex-Omni 的核心思路是:将 “连续坐标回归” 转化为 MLLM 擅长的 “离散 token 预测任务”。因此,任务目标就是让 MLLM “能懂坐标”。

2025-12-06 16:16:03 451

原创 整合多模态文档解析与DeepResearch的框架:Doc-Researcher思路

整体偏向工程实现,Doc-Researcher从名字可以看出,首先这个框架需要进行文档解析提取文档的图文多模态元素,文档解析相关技术链路《其次是多模态深度研究(通过迭代分解问题、积累证据、验证信息,实现多文档、多跳、多轮的深度推理。)和衔接两者的多模态检索架构。下面简单看下思路。

2025-11-17 16:35:50 940

原创 如何输入一张草图,通过多模态模型生成美观的版面图?

如何输入一张草图,生成美观的版面图?下面来看一个多模态布局生成思路。

2025-11-17 16:34:40 553

原创 大规模文档版式分析数据集生成-OmniLayout-1M数据生成思路

再来看一个文档版式数据生成思路,利用大模型从粗到细粒度的生成通用文档版面分析数据,解决现有版式分析“缺多样性”、“缺规模”、“依赖人工标注”问题。

2025-11-17 16:33:31 994

原创 文档图像旋转对VLM OCR的影响及基于Phi-3.5-Vision+分类头的文档方向分类器、及数据构建思路

假设文档的存在方向旋转,那么会进一步的干扰VLM进行OCR的性能,下面看一个预处理方案,解决文档旋转干扰OCR问题,并进行一些评估,方法较为简单,快速看一下。旋转分类任务定义:将文档旋转校正转化为。

2025-11-17 16:32:46 567

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除