- 博客(330)
- 资源 (3)
- 收藏
- 关注
原创 what can I do
本文涵盖图像处理与大模型两大技术方向。图像领域聚焦超分辨率、去噪及医学影像增强;大模型方向覆盖LLM训练全流程(数据清洗、RLHF微调、分布式训练)与行业定制化开发(医疗/金融),并详述部署优化方案(DeepSpeed/vLLM)。核心技术包括nnUNet医学分割、LoRA微调等,形成从研发到落地的完整技术栈,特别强调医疗影像增强与行业模型适配的实践价值。
2026-01-16 16:30:58
184
1
原创 完全开源的语言模型学习记录--DFlash源码分析2
该方法的核心思想是通过知识蒸馏技术,使小模型学习大模型的行为,从而在保持推理质量的同时显著提升推理速度。
2026-04-28 18:08:25
285
原创 完全开源的语言模型学习记录--DFlash源码分析
基于 Qwen3 大模型的 speculative decoding(推测解码)加速推理代码,核心是用轻量 draft 模型(草稿模型) 提前预测多个 token,再用目标大模型验证,大幅提升推理速度
2026-04-28 17:50:35
361
原创 完全开源的语言模型学习记录--S0 Tuning 不动权重微调
S₀ Tuning是针对混合循环-注意力大模型的零推理开销参数高效微调(PEFT)方法,仅优化各循环层的初始状态矩阵S₀、冻结全部模型权重,在约48条执行验证的HumanEval训练样本下,于Qwen3.5-4B上实现HumanEvalpass@1提升23.6±1.7pp超越LoRA 10.8pp(p<0.001);在FalconH1-7B上与LoRA效果相当且无需权重合并,跨域迁移至MATH-500、GSM8K效果显著,纯Transformer上前缀调优失效,验证循环状态是混合模型高潜力适配面。
2026-04-28 17:25:48
362
原创 大语言模型加速--DFlash草稿模型
DFlash是一种轻量级块扩散草稿模型,专为大语言模型投机解码加速设计。其核心是通过目标模型引导的块级并行预测训练,让小模型一次性生成整块token草稿(默认块长16),再由大模型验证接受,实现4-6倍推理加速。模型采用5-8层轻量架构,通过特征融合和KV注入技术深度对齐目标模型输出分布,配合随机锚点与块内双向注意力机制训练。训练数据使用目标模型生成的响应构建,采用logit蒸馏损失和位置感知损失优化,最终实现高效块级并行生成与验证。相比传统逐token解码方案,DFlash在保持生成质量的同时显著
2026-04-27 18:04:21
549
原创 小参数强性能模型--LFM2.5-350M
Granite-4.0-H-350M 是基于 Granite-4.0-H-350M-Base 微调开发的轻量级指令模型,采用开源指令数据集和内部合成数据进行训练。该模型支持多种自然语言处理任务,包括文本分类、问答、代码补全、函数调用和多语言对话等,适用于增强检索生成(RAG)和中间填充(FIM)代码补全等场景。开发过程中结合了监督微调、强化学习和模型合并技术。
2026-04-27 17:21:33
226
原创 三大主流推理框架如何选型--SGLang、KTransformers、vLLM
本文对比了三大主流大模型推理框架vLLM、SGLang和KTransformers的核心特性与适用场景。vLLM凭借PagedAttention技术在通用高吞吐推理和长文本处理上表现最优;SGLang通过RadixAttention在多轮对话和结构化生成场景中吞吐量提升40%-60%;KTransformers则专注于CPU-GPU异构计算,能在极低显存下运行超大模型。测试数据显示,单轮对话vLLM性能最佳,多轮场景SGLang优势明显,而资源受限环境KTransformers是唯一选择。开发者应根据实际需
2026-04-24 16:03:46
614
原创 完全开源的语言模型学习记录--TrilinearCIM架构
TrilinearCIM架构,基于双栅铁电场效应晶体管(DG‑FeFET),通过背栅调制实现三操作数乘累加,在无需运行时非易失性存储器(NVM)重编程的情况下完成 Transformer 自注意力全流程计算,在 BERT‑base 与 ViT‑base 上验证,相比传统 FeFET CIM 实现最高 46.6% 能耗降低、20.4% 延迟降低,9 项 GLUE 任务中 7 项精度更优,是首个纯 NVM 核内完成 Transformer 注意力计算的架构。
2026-04-24 12:03:51
347
原创 完全开源的语言模型学习记录--LEANER低成本数据集构建
本文提出无噪声、低复杂度原则,构建LEANER 数据集(含 71M 预训练、7M 指令微调数据),打造简化语言环境训练TinyHelen 小型语言模型,验证简化数据可提升小模型学习效率与指令遵循能力,还以低成本方式完成模型架构对比与课程学习策略探索,为小模型高效训练与自进化智能体研发提供基础。
2026-04-23 18:16:07
379
原创 完全开源的语言模型学习记录--Lora-Pre低秩优化器
本文提出LoRA-Pre低秩优化器,通过理论证明动量EMA更新等价于在线线性回归,将动量矩阵分解为低秩乘积以压缩优化器状态。该方法适配Adam与Muon优化器,在60M-1B参数Llama模型预训练中取得最优困惑度,微调阶段较标准LoRA在Llama3.1-8B和Llama-2-7B上分别提升3.14分和6.17分,秩效率达基线的8-16倍。核心创新在于动态连续子空间更新和二阶动量重参数化,解决了传统方法的误差累积问题,同时显著降低内存开销。
2026-04-23 17:55:22
625
原创 基于vllm+triton的大模型推理加速方案
本文介绍了一种基于vLLM和Triton Inference Server的Qwen3-0.6B模型高性能推理部署方案。主要内容包括: 环境与硬件要求:推荐NVIDIA GPU(显存≥4GB)、8核CPU、16GB内存,支持CUDA 11.8/12.1和Python 3.10-3.11环境。 环境搭建:通过虚拟环境安装PyTorch、vLLM推理引擎和Triton Server,并下载Qwen3-0.6B模型。
2026-04-23 12:02:24
694
原创 实践--Gemini自动生成机制图
本文介绍了使用Gemini生成学术机制图的两大方法:直接生成示意图和生成Mermaid代码。重点讲解了提示词撰写技巧(PDCF框架)、模型选择建议(Gemini 2.5 Flash/Pro)以及后期优化方法。文章包含可直接复制的模板,适用于论文、PPT等科研场景,强调通过多轮迭代和模块化设计提升图表质量。核心要点包括:1)机制逻辑拆解;2)精准提示词撰写;3)Mermaid代码导出编辑;4)顶刊级图表优化技巧。
2026-04-20 15:58:31
1210
原创 llamacpp使用命令
本文整理了llama-server(llama.cpp HTTP推理服务)的核心启动参数,分为六大类:基础帮助、模型加载、上下文配置、HTTP服务、生成采样和日志调试。重点包括必填的模型路径参数、GPU卸载层数设置、HTTP监听配置以及文本生成参数等。同时提供了常用启动示例,如基础CPU模式、GPU加速公网访问等,并说明可通过环境变量替代部分参数。这些参数可帮助用户灵活配置推理服务的性能和功能。
2026-04-17 15:09:11
775
原创 完全开源的语言模型学习记录--Kimi linear
Kimi Linear 是月之暗面 AI提出的混合线性注意力架构,核心为Kimi Delta Attention(KDA) 细粒度门控线性注意力模块,采用3:1的 KDA 与全局 MLA 混合层比例,在1.4T/5.7T令牌预训练下,短 / 长上下文、强化学习任务全面超越全注意力基线,KV 缓存减少 75%、1M 上下文解码吞吐量最高提升 6.3 倍,开源内核与模型权重可直接替代传统注意力架构。
2026-04-17 13:20:18
384
原创 完全开源的语言模型学习记录--Multi-Answer奖励机制
本文提出Multi‑Answer RL框架,通过两种强化学习目标(RLVR与RLCR)使语言模型单次生成多候选答案及置信度。相比传统单答案模式,该方法在医疗诊断、模糊QA和代码生成任务中显著提升了答案覆盖度、多样性和校准性,同时减少50%以上的令牌消耗。实验显示,Multi‑Answer RLCR在校准性上表现最优,能有效避免模式坍缩,适用于需分布推理的高风险场景。核心创新在于将单答案强化学习扩展为集合级优化,兼顾计算效率与输出质量。
2026-04-17 11:46:28
403
原创 完全开源的语言模型学习记录--Bonsai 8B 1.5Bit 量化
1-bit Bonsai 8B 实测摘要 在RTX 4090平台实测中,1-bit Bonsai-8B(GGUF格式)展现出189.29 tokens/s的生成速度,较FP16基准提升约5.4倍。该表现印证了其核心优势: 极简架构:纯1-bit符号+128权重组共享尺度(1.125bit/权重),模型体积仅1.15GB; 硬件友好:专用CUDA内核实现符号位运算优化,规避全精度张量计算; 能效比:单token能耗低至0.276mWh(4090),适合高并发边缘部署。 注:实际速度受硬件/框架优化影响,移动端
2026-04-17 11:00:21
380
原创 完全开源的语言模型学习记录--RandOpt 扰动
该代码实现了一个名为RandOpt的并行化随机优化框架,支持多数据集和模型评估。主要功能包括:1) 参数配置(数据集选择、模型设置、扰动参数等);2) 数据加载与处理;3) 基于vLLM引擎的并行推理;4) 支持从历史运行中恢复。代码使用Ray进行分布式计算,通过参数化扰动(sigma值)和top-k选择策略来优化模型性能,适用于大语言模型的评估和调优场景。
2026-04-16 18:50:06
325
原创 完全开源的语言模型学习记录--OPUS数据动态选择策略
大模型预训练数据选择迎来新突破!OPUS框架提出动态数据选择方法,在优化器诱导空间定义数据效用,结合Ghost技术和CountSketch实现高效计算。实验表明,该方法仅增加4.7%计算开销,在GPT-2、Qwen3-8B等模型上平均提升2.2%精度,计算效率提升8倍,用更少数据达到全量训练效果。核心创新包括优化器感知的效用评分、BENCH-PROXY代理池构建、Boltzmann采样保持多样性,解决了传统静态筛选和动态梯度方法的不足,为大规模预训练提供了更高效的数据选择方案。
2026-04-16 18:41:43
335
原创 完全开源的语言模型学习记录--80/20法则:高熵少数 Token 驱动 RLVR代码分析
本文提出一种改进RLVR训练的方法,通过仅保留高熵token参与梯度更新来提升模型性能。研究发现大多数token的熵值较低,真正驱动学习的是少数高熵token。方法核心包括:1)在配置中新增entropy_top_ratio参数控制保留比例;2)实现get_global_entropy_top_mask函数进行跨batch的全局高熵token筛选;3)在policy loss计算中应用双重掩码机制。实验通过设置entropy_top_ratio=0.2仅保留熵值最高的20%token,与标准DAPO形成对照
2026-04-16 18:10:07
261
原创 完全开源的语言模型学习记录--80/20法则,LLM只需20%token学会Reasoning
本文研究发现,强化学习优化大模型推理的核心机制在于聚焦高熵Token。通过分析Token熵分布,揭示思维链中仅20%高熵Token承担关键推理决策功能,而80%低熵Token仅完成语言拼接。实验证明,仅用Top20%高熵Token更新策略梯度,就能在Qwen3系列模型上达到甚至超越全Token训练效果,且模型越大增益越显著(32B模型在AIME'24/25分别提升7.71/11.04分)。该研究不仅解释了RL泛化优于SFT记忆的底层原因,还为优化RLVR、SFT等算法提供了新视角,证明clip-higher
2026-04-16 11:45:36
569
原创 完全开源的语言模型学习记录--KeepLora 梯度实现
本文详细解析了神经网络权重矩阵的奇异值分解(SVD)方法实现。代码通过SVD对目标模块的权重矩阵进行分解,计算奇异值能量占比,并基于给定能量阈值选择主成分。关键步骤包括:权重矩阵转置适配SVD输入、执行分解得到U/S/Vh矩阵、计算奇异值能量占比、确定保留主成分数量、生成低秩投影矩阵。该方法可用于模型压缩和特征降维,在保留主要信息的同时显著减少参数量。最终输出包含各层权重的主成分子空间、实际使用秩数等关键信息,为后续模型优化提供基础。
2026-04-15 15:13:35
826
原创 完全开源的语言模型学习记录--KeepLora
KeepLoRA方法,针对预训练视觉 - 语言模型的持续学习问题,通过残差梯度自适应与子空间约束,平衡可塑性、前向稳定性与后向稳定性三大核心目标;经 SVD 分析发现模型主子空间存储通用知识、残差子空间存储任务专属知识,将 LoRA 更新限制在残差子空间以避免知识干扰,在 CLIP、LLaVA 模型及 MTIL、MLLM-DCL、UCIT 基准上取得SOTA效果,代码已开源。
2026-04-15 13:10:10
494
原创 完全开源的语言模型学习记录--Multi-Head Low-Rank Attention
Multi-Head Low-Rank Attention(MLRA),针对MLA 在张量并行(TP)分布式解码中存在分片瓶颈、需冗余加载完整 KV 缓存的缺陷,将隐层头分解为2/4 个独立低秩分支,实现原生 4 路张量并行,在2.9B 参数模型上取得最低困惑度 13.672、最高零样本常识推理准确率 58.84%,长文本解码速度相较 MLA 提升2.8 倍,同时保持高算术强度,有效缓解大模型长上下文推理的内存墙问题。
2026-04-14 22:45:44
472
原创 完全开源的语言模型学习记录--Olmo3
Olmo 3 是艾伦人工智能研究所联合多所高校研发的全开源大模型,覆盖7B、32B两个参数规模,主打长上下文推理、函数调用、代码、数学、通用对话能力,完整开放训练全流程(含各阶段检查点、数据、依赖),旗舰模型Olmo 3 Think-32B为当前最强全开源思维模型。
2026-04-14 22:31:12
338
原创 完全开源的语言模型学习记录--Attention的影响 3
苹果团队提出Exclusive Self Attention(XSA),一种极简的自注意力改进方案。XSA通过正交投影移除注意力输出中与自身Value向量相关的分量,有效解决标准自注意力的相似度偏置问题,使模型更专注于上下文建模。该方法计算开销极小,仅需2行代码修改,在0.7B~2.7B大模型上显著提升效果,且序列越长增益越大(最高提升1.36%)。XSA兼容RoPE、Attention Sink等现有技术,无需额外参数,可即插即用,为长序列建模提供高效解决方案。
2026-04-14 18:46:21
606
原创 完全开源的语言模型学习记录--学习率的影响 2
LLM课程式预训练(按数据质量升序训练)与激进学习率衰减存在冲突——高质量数据在训练末期遭遇极低学习率,导致更新幅度被大幅削弱。通过采用温和学习率衰减(最终LR为峰值1/3)或课程模型平均(恒定LR+模型平均),可有效解决该问题。实验表明,1.5B参数模型在30B token训练下,基准精度平均提升1.64%,中期训练核心指标提升超2%,证实数据课程、学习率策略与模型平均的协同设计能显著提升预训练效率,且无需额外数据筛选成本。
2026-04-14 17:43:01
500
原创 完全开源的语言模型学习记录 1
PCMind-2.1-Kaiyuan-2B是清华大学与鹏城实验室联合研发的完全开源 2B 参数轻量级大模型,通过分位数数据基准测试、多阶段选择性重复、多领域课程学习三大核心创新,在FP16 硬件上实现稳定训练,非嵌入参数仅 1.4B,性能超越同规模全开源模型、接近 Qwen2-1.5B 等开源权重模型,在中文、数学、代码任务上表现突出,全套权重、数据与代码基于 Apache 2.0 协议开源。
2026-04-14 16:06:26
370
原创 多轮对话与问答场景RAG链路探析
本文详细探讨了多轮对话与问答场景中的RAG(检索增强生成)技术链路,重点分析了五大核心模块:Query改写、多级检索、重排序、上下文压缩和答案置信度估计。通过Query改写解决上下文依赖和模糊表达问题,采用Dense+Sparse多级检索确保高召回与高精准,利用重排序优化候选文档质量,运用上下文压缩减少信息冗余,最后通过置信度评估保障答案可靠性。
2026-04-03 18:26:16
361
2
原创 测试几种不同位置编码中旋转的耗时分析
这篇文章对比了四种实现张量旋转操作的PyTorch方法,包括原始版本和三个优化版本(v1-v3)。通过在大张量(32x128x512)上测试10万次迭代的性能,结果显示改进版v2速度最快。测试方法使用了cuda同步和精确计时,模拟了Transformer模型中的真实计算场景。代码展示了不同实现的核心差异:原始版本使用chunk分割,v1采用切片索引,v2使用原地操作,v3使用split方法。性能测试表明,针对大张量运算时,优化后的实现能显著提升效率。
2026-04-02 15:08:14
28
原创 pre-pre-training的规则系统有哪些
本文探讨了四种规则系统的本质与特点:物理世界基于客观自然定律运行,具有不可逆性和无限复杂性;细胞自动机通过简单局部规则涌现复杂行为;游戏世界作为人为设计的虚拟系统,具有封闭规则和交互性;数学系统则是纯粹抽象的逻辑结构。这些系统展示了从自然到人工、从具体到抽象的规则演化层次,为理解复杂系统提供了多维度参考框架。
2026-04-02 10:08:50
333
原创 大模型优化:RLOO离线强化学习策略
RLOO(Reinforcement Learning from Offline Output)是一种结合离线数据与强化学习的方法,通过批量生成响应、离线打分和相对优势估计来优化策略。其核心创新在于将环境交互从训练循环中剥离,利用静态数据集(如专家演示)进行预处理,并通过Bradley-Terry模型比较响应间的相对优势,提升训练鲁棒性。典型算法包括BCQ、CQL和AWAC,均通过保守估计或优势加权避免分布偏移。该方法已集成于ms-swift框架,支持异步批量生成与策略更新,显著降低在线交互成本。
2026-04-01 11:55:41
1304
2
原创 温故:CasRel实体关系抽取
本文实现了一个基于BERT的CasRel(Cascade Binary Tagging)关系抽取模型。该模型通过级联二元标记框架,先检测句子中的主语,再预测与之相关的宾语及关系类型。核心组件包括BERT编码层、主语头尾位置预测模块和特定主语条件下的宾语关系预测模块。模型采用focal loss处理类别不平衡问题,通过四个损失函数联合优化:主语头尾位置预测损失和宾语关系预测损失。这种设计有效解决了实体重叠问题,在关系抽取任务中表现出色。代码基于PyTorch实现,使用了预训练的BERT模型作为文本编码器。
2026-03-31 23:13:57
18
原创 pre-pre-training 在预训练之前增加一个预训练
两篇论文探讨了在传统预训练前增加预处理阶段的方法。第一篇提出程序化预训练,让语言模型先在结构化数据上训练,实验显示仅需0.1%程序化数据就能提升后续自然语言、代码和数学领域的表现。第二篇采用神经细胞自动机(NCA)生成数据预训练,仅使用1.64亿NCA令牌就使语言建模性能提升6%,收敛速度加快1.6倍,效果优于16亿自然语言令牌。这些方法都利用了非语义的逻辑数据作为预训练信号,通过构建算法支架来增强模型能力。相关代码和数据集已在GitHub开源。
2026-03-31 18:06:53
679
原创 分词基础--BPE算法详解
BPE(字节对编码)是一种高效的子词分词算法,通过迭代合并高频字符对构建词表。其核心分为训练阶段(统计字符对频率并合并)和推理阶段(最长匹配分词)。BBPE(字节级BPE)是BPE的扩展,直接从UTF-8字节出发,实现零未登录词,尤其优化了中文处理,支持多语言和特殊标记。Qwen的BBPE词表达15万+,覆盖中英日韩等语言,并通过特殊token(如序列结束标记)增强模型能力。示例显示,BBPE能将中文有效拆分为子词(如“我爱通义千问”拆为[我爱, 通义, 千问])。
2026-03-31 12:09:24
872
原创 LeWorldModel 世界模型
杨立昆团队推出极简高效的世界模型LeWorldModel(LeWM),通过改进JEPA架构解决了传统方法的痛点。该模型采用端到端联合嵌入预测架构,从像素输入直接学习表征,核心代码仅需数行。其创新点在于结合预测损失与SIGReg正则化(防坍塌损失),在保持稳定性的同时实现高效训练。相关论文和代码已开源,适用于机器人规划等任务。
2026-03-30 10:42:05
102
原创 MSA 记忆稀疏注意力
MSA提出了一种可扩展的端到端内存模型框架,通过稀疏注意力机制支持高达1亿令牌的长上下文处理。其核心创新包括:1)文档级RoPE与可扩展稀疏注意力相结合;2)基于KV缓存压缩的内存并行推理引擎;3)支持多轮多跳推理的内存交错机制。框架采用模块化设计,通过块边界判断和注意力加权聚合实现高效内存管理。
2026-03-26 16:57:48
46
原创 fastllm旧版问题解决方案
文档记录了fastllm编译过程中出现的CUDA内存分配错误(128kB分配失败),可能由于GPU显存不足。提供了两种编译方案:支持GPU的编译命令(包含架构优化参数)和纯CPU编译选项。
2026-03-25 10:41:47
19
原创 OpenViking 调研
OpenViking是火山引擎开源的AI Agent上下文数据库,采用文件系统范式管理智能体记忆、资源和技能。其核心特性包括:分层上下文加载降低Token消耗、目录递归检索提升精准度、可视化检索轨迹增强可观察性、自动会话管理实现智能体自迭代。支持多种AI模型服务商(火山引擎、OpenAI等),通过配置文件设置存储路径、日志级别及API密钥等参数。
2026-03-13 16:29:58
457
原创 Qwen3-VL-2B-Instruct 微调实践 2
本文介绍了使用ms-swift工具对Qwen3-VL-2B-Instruct模型进行微调的具体步骤。通过设置CUDA_VISIBLE_DEVICES指定GPU设备,使用bfloat16精度,配置学习率1e-4、梯度累积步数16等参数,在指定数据集上进行训练。命令中还包含了评估间隔、输出目录、日志记录等配置选项,最终将训练日志输出到指定文件中。
2026-03-13 14:00:44
33
git安装说明.txt
2025-10-31
【计算机视觉】基于YOLOv11的目标检测模型:猫狗识别系统从训练到部署的全流程设计与应用拓展
2025-10-29
【工业通信协议】PROFINET与EtherCAT实时性能对比:高精度运动控制场景下的数据效率与同步性优化方案
2025-10-29
数值计算基于Cholesky分解的正定矩阵处理:Python实现与线性方程组求解应用
2025-10-28
C++200例详细的介绍了C++语言的用法
2009-08-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅