- 博客(98)
- 资源 (3)
- 收藏
- 关注
原创 国产化华为昇腾上安装rocketmq
openssl编译出错,找到build openssl static附近,然后在./config中加上no-asm。已经在工程目录下,然后创建bin/lib/aarch64-linux-gnu。找到CMakeLists.txt的186行,屏蔽掉。1、在这个地址下载安装包。
2025-11-25 18:12:09
137
原创 YOLOE: Real-Time Seeing Anything
目标检测与分割在计算机视觉应用中被广泛采用,但诸如 YOLO 系列等传统模型虽然高效且准确,却受限于预定义类别,在开放场景中的可适应性不足。近期的开放集方法通过文本提示、视觉提示或“无提示”范式来缓解这一问题,但往往因为计算开销大或部署复杂,在性能与效率之间被迫权衡。本文提出。
2025-10-19 14:39:50
940
原创 GSPO vs GRPO:MoE 模型的强化学习
值得注意的是,即使存在显著更高的截断标记率,GSPO 仍能保持更高的训练效率,这进一步验证了在此类场景下标记级优化的不足。GSPO 代表了混合专家模型强化学习领域一次具有针对性的重大演进,它通过更连贯的序列级方法,解决了 GRPO 等令牌级方法的核心不稳定性和低效问题。不同于逐词元比较当前策略(即正在训练的模型)与参考策略(即初始化所用模型)的对数概率,GSPO 采用归一化的序列级似然来计算重要性比率。关键的是,GSPO 还在序列层级应用了剪裁技术,这提升了训练鲁棒性并消除了对辅助稳定技术的需求。
2025-08-17 13:56:30
663
原创 如何在多 GPU 配置上运行 Unsloth:数据并行或模型并行
当工作负载受限于内存(模型或批次无法放入单张显卡)、或受限于计算且计算与通信比率较高时(即每块 GPU 的额外计算量超过同步参数的开销,如在 DDP 中,或超过传递激活值的开销,如在模型并行中),多 GPU 配置才开始显现优势。在松散连接的显卡上(尤其是 PCIe 版本的 H100 或 A100),额外的设备间数据传输会导致性能显著低于单 GPU 运行。让我们厘清概念,明确说明如何通过模型并行(将模型拆分到多个 GPU)或数据并行(在每个 GPU 上复制模型)来跨多 GPU 运行 Unsloth。
2025-08-17 12:30:01
523
原创 如何使用 vLLM 运行 gpt-oss
vLLM 是一款开源的高吞吐量推理引擎,通过优化内存使用和处理速度,专为高效服务大型语言模型(LLMs)而设计。本指南将逐步介绍如何使用 vLLM 在服务器上部署 gpt-oss-20b 或 gpt-oss-120b,将其作为 API 为您的应用程序提供服务,甚至可将其连接到智能体 SDK。请注意,本指南适用于配备专用 GPU(如 NVIDIA H100)的服务器应用。
2025-08-17 10:57:22
711
原创 OpenAI GPT-OSS:原生 4 比特混合专家模型
GPT-OSS 包含两个基于 Apache 2.0 许可证发布的混合专家模型(MoE)检查点。其中 GPT-OSS 20B 模型总参数量为 210 亿,每个 token 激活 36 亿参数,可在 16GB 消费级 GPU 上运行。更大的 gpt-oss-120B 模型拥有 1170 亿参数,借助 MXFP4 量化技术可适配单块 80GB 显存的 H100 GPU。没错,就是 MXFP4!随着 Blackwell 架构 GPU(包括消费级版本)现已原生支持该格式,原生 MXFP4 模型的出现只是时间问题。
2025-08-17 10:19:18
774
原创 使用 Python 从零构建 DeepSeek R1
DeepSeek R1 的整个训练过程,本质上就是在基础模型(即 deepseek V3)之上采用不同方式的强化学习。从一个小型本地运行的基础模型开始,我们将基于 DeepSeek R1 技术报告从头构建所有内容,并在每个步骤中同步讲解相关理论。搭建基础环境现在,让我们导入所需的库。训练数据集尽管论文未明确说明 RL 预训练使用的初始数据集,但我们推测其重点应聚焦于推理能力。AI-MO/NuminaMath-TIR 包含 7 万个数学问题,其中消息列展示了解题背后的思维链(COT)推理过程。
2025-08-04 16:44:17
1087
原创 注意力机制的必要性
在深入探讨注意力机制之前,我们先来理解上下文窗口的真正含义——这个关键概念为后续所有内容奠定了基础。上下文窗口定义了模型在任意给定时间可以关注的输入序列部分。这就像阅读一个长段落,但每次只专注于几个单词,同时忽略其余部分。例如,在翻译句子时,你的大脑不会一次性处理整个段落——它会选择性地聚焦于一小部分内容,完成翻译后再推进到下一部分。这个注意力窗口之外的所有信息都会被暂时忽略。在每一步,它们会决定关注上下文窗口内的哪些词语。它们将其他所有内容都视为当前无关信息而屏蔽掉。
2025-07-21 10:56:54
903
2
原创 Token穿越LLM架构之旅
引言引言在本篇博客中,我们将开启一段激动人心的旅程——追踪一个 token 在 LLM 架构中的流动轨迹。通过这种方式,我们将揭示这些强大模型的内部运作机制,从 token 化处理到嵌入表示,再到注意力机制,直至最终输出生成。这次探索将让我们一窥 LLMs 如何实现理解并生成类人文本的奇妙过程。
2025-07-20 16:32:36
908
1
原创 如何大幅加速 PyTorch 模型训练
3. 优化 DataLoader 速度训练深度学习模型有时就像看着油漆慢慢变干。迭代过程可能缓慢到让你忍不住用头撞键盘,眼睁睁看着终端上每个 epoch 像蜗牛般爬行,这时你难免会想:有没有更好的方法?别担心!我又带来了一篇文章,分享一些让你的深度学习工作流程更加敏捷的技巧/窍门。我将分享一些直接而有用的代码调整,帮助你更有效地利用计算资源。我们还将深入探讨一系列经过行业验证的技巧、窍门和调整,这些方法可以从你的硬件中榨取每一分性能,让你少花时间等待,多花时间进行更快的迭代。
2025-07-18 11:02:02
839
4
原创 扩散模型,简单解析
引言引言生成式 AI 是当下最热门的术语之一。最近,涉及文本、图像、音频和视频生成的生成式 AI 应用呈现爆发式增长。在图像创作领域,扩散模型已成为最先进的内容生成技术。虽然该技术最早于 2015 年提出,但经过重大改进后,现已成为 DALLE 和 Midjourney 等知名模型的核心机制。本文旨在阐释扩散模型的核心原理。掌握这些基础知识将有助于理解复杂扩散变体中使用的进阶概念,并在训练自定义扩散模型时解读超参数的作用。扩散物理学类比让我们想象一杯透明的水。
2025-07-17 20:32:46
576
1
原创 LLMs 现可通过纯强化学习进行预训练
RPT 表现如何?深度解析微软研究人员提出的强化预训练(RPT)新技术,该技术可扩展性地利用强化学习预训练 LLMs。传统上,LLMs 通过自监督方式在大型文本数据集上进行下一词预测目标的预训练。预训练完成后,它们会通过进一步的监督学习针对特定任务进行微调,或使用强化学习(RL)进行对齐调优。然而,这种流程在未来可能不再是训练模型的标准范式。微软近期发表的一篇研究论文提出了强化预训练(RPT)这一新方法,该方法将 LLMs 的预训练目标从"下一个词元预测"重新定义为"下一个词元推理"。
2025-07-17 10:40:14
1063
1
原创 与文档对话工具——RAG(向量数据库+余弦相似度)及 Claude API 实现
最近在做一家律所的项目:做一个回答所有文档相关问题的工具一些典型的使用场景包括:1) 描述法庭上发生的事件2) 提供案件审理状态更新3) 制作案件时间线请记住我们讨论的是律师事务所场景,因此这个工具需要能处理大量涉及客户隐私、法律程序等机密信息,隐私保护与(尤其是)幻觉问题是我必须解决的两大瓶颈。他们最初的想法是把所有数据都导入 ChatGPT 进行提问,但这显然不是理想方案,因为无法处理上述问题。几周前这个项目交到我手上,我认为自己成功交付了一个既有效又成本可控的方案。
2025-07-16 20:56:33
902
1
原创 安装rocketmq-client-python-2.0.0出现rocketmq dynamic library not found的错误怎么办?
会出现:ImportError: cannot import name 'ConsumeStatus' from 'rocketmq.client' (/home/ps/miniforge3/envs/wink/lib/python3.10/site-packages/rocketmq/client.py)这样的错误1、卸载rocketmq2、卸载rocketmq-client-python3、重新安装rocketmq-client-python但是这个时候会出现。
2025-07-16 09:09:50
714
1
原创 GPT-5 将于 2025 年 7 月问世——一切即将改变
为何这个时间节点至关重要"看着人们使用 ChatGPT 真是疯狂……因为知道即将到来的是什么。— OpenAI 内部人士透露请记住这个时间节点:2025 年 7 月。届时人工智能世界将迎来分水岭时刻。如果说 GPT-4 震撼了世界,GPT-5 将彻底颠覆现有认知框架。这绝非简单的版本迭代。而是一场范式革命,是从惊艳到超乎想象的质变飞跃。其降临速度之快,远超多数专家预期。
2025-07-15 20:17:53
2928
原创 图卷积网络:图神经网络入门
图神经网络(GNNs)是深度学习领域中最引人入胜且快速发展的架构之一。作为专为处理图结构数据而设计的深度学习模型,GNNs 展现出卓越的适应性和强大的学习能力。在各类 GNN 模型中,图卷积网络(GCNs)已成为最流行且应用最广泛的架构。GCNs 的创新性在于能够同时利用节点特征及其局部拓扑关系进行预测,为处理图结构数据提供了有效方法。本文将深入解析图卷积网络(GCN)层的运作机制,并阐明其内部工作原理。此外,我们将选用 PyTorch Geometric 作为工具,探讨其在节点分类任务中的实际应用。
2025-07-15 09:54:06
1209
原创 《我的世界》中的强化学习:打造一个寻找钻石的机器人
同时我们也要限制可执行动作(类别)的数量,这样 CNN 的选择会更少,意味着训练效率会更高。更困难的是,我们将在随机生成的世界中接受这项挑战,因此无法依赖特定种子进行学习。在 MineRL 中,每秒会处理 20 个动作:我们不需要完整的一秒,所以处理 5 次动作,然后等待 40 个游戏刻。幸运的是,神经网络不需要 4K 分辨率也能理解屏幕上的内容。更具体地说,我们将实现两种不同的技术,这些技术将成为我们智能代理的核心基础。我们选择了 0.0001 的学习率,32 的批次大小,并进行 6 个训练周期。
2025-07-14 21:53:45
1276
原创 用非线性规划优化营销预算
例如,向某个渠道投入更多资金最初可能带来更高回报(凸形),但超过某个临界点后,每追加一美元产生的边际效益会逐渐降低(转为凹形),最终形成整体呈 S 形的曲线。随着营销环境的变化和渠道数量的增加,像非线性规划这样的优化技术能帮助企业做出更优的、数据驱动的营销投资决策。持续学习和实验,为你的企业找到最佳方法。通过运用这种先进数学技术,我们的目标是优化各平台间的营销预算分配,以获取最大价值和尽可能高的投资回报率。非线性规划,又称非线性优化,是一种用于解决目标函数、约束条件或两者均为非线性的优化问题的方法。
2025-07-14 21:05:27
806
原创 ExLlamaV2:运行 LLMs 最快的库
量化大型语言模型(LLMs)是当前最流行的模型压缩和加速推理方法。在这些技术中,GPTQ 在 GPU 上展现出惊人的性能表现。与未量化模型相比,该方法在保持相近精度和更快生成速度的同时,VRAM 占用减少了近 3 倍。其流行程度之高,以至于近期已直接集成到 transformers 库中。ExLlamaV2 是一个专为榨取 GPTQ 更多性能而设计的库。得益于新内核,它针对(极速)推理进行了优化。该库还引入了新的量化格式 EXL2,为权重存储方式提供了极大灵活性。
2025-07-14 20:22:49
923
原创 使用 Unsloth 高效微调 Llama 3.1
最新发布的Llama3.1系列模型性能显著提升,缩小了与闭源模型的差距。相比GPT-4o等通用大模型,针对具体场景微调Llama3.1能以更低成本获得更优性能和定制化效果。
2025-07-14 14:30:08
1238
原创 通过 mergekit 融合大型语言模型
模型融合是一种将两个或多个 LLM 合并为单一模型的技术。这是一种相对新颖且实验性的方法,能够以低成本(无需 GPU)创建新模型。令人惊讶的是,模型融合效果出奇地好,并在 Open LLM 排行榜上催生了许多最先进的模型。本教程中,我们将使用 mergekit 库来实现这一技术。具体来说,我们将探讨四种融合方法并提供配置示例。本节我们将重点介绍 mergekit 当前实现的四种方法。需注意还存在其他方法(如线性合并和任务算术)。1. SLERP。
2025-07-09 20:44:51
686
原创 大型语言模型中的解码策略
在大型语言模型(LLMs)的奇妙世界中,人们往往聚焦于模型架构、数据处理和优化技术。然而像束搜索(beam search)这类对文本生成至关重要的解码策略却常被忽视。本文将深入解析 LLMs 生成文本的机制,包括贪心搜索、束搜索的工作原理,以及 top-k 采样和核采样等抽样技术。通过本文的学习,你不仅能透彻理解这些解码策略,还会熟悉如何处理温度、num_beamstop_k和top_p等重要超参数。
2025-07-08 15:14:24
1011
3
原创 如何从零开始成为 LLM 科学家与工程师?
多模态模型:这类模型(如 CLIP、Stable Diffusion 或 LLaVA)通过统一的嵌入空间处理多种类型输入(文本、图像、音频等),从而解锁了文生图等强大应用场景。编排器:编排器(如 LangChain、LlamaIndex、FastRAG 等)是流行的框架,用于将 LLMs 与工具、数据库、记忆系统等连接起来,从而增强其能力。量化是指将模型参数和激活值转换为更低精度的过程。部分技术已趋成熟(模型融合、多模态),而另一些则更具实验性(可解释性、测试时计算规模调整),成为众多研究论文的焦点。
2025-07-08 10:25:58
815
1
原创 LLM 微调入门指南
随着人们对大型语言模型(LLMs)兴趣的增长,旨在简化其训练流程的工具和封装器如雨后春笋般涌现。主流选择包括 LMSYS 开发的 FastChat(曾用于训练 Vicuna 模型)和 Hugging Face 的 transformers/trl 库(在我的前作中使用过)。此外,每个大型 LLM 项目(如 WizardLM)通常都会基于最初的 Alpaca 实现方案,开发自己的训练脚本。本文将使用 OpenAccess AI Collective 开发的工具。
2025-07-08 09:31:24
780
原创 使用 MergeKit 创建专家混合模型
随着 Mixtral 的发布,混合专家(MoE)架构在最近几个月变得流行起来。。虽然 Mixtral 和其他 MoE 架构都是从头开始预训练的,但最近出现了另一种创建 MoE 的方法。得益于 Arcee 的 MergeKit 库,我们现在可以通过。这类模型通常被称为"缝合 MoE"(frankenMoE)或"混合 MoE"(MoErge),以区别于预训练的 MoE 模型。本文将详细解析混合专家(MoE)架构的工作原理及 frankenMoE 的创建方法。
2025-07-07 21:22:37
669
原创 使用 GGUF 和 llama.cpp 量化 Llama 模型
由于大语言模型(LLMs)的庞大规模,量化已成为高效运行它们的关键技术。通过降低权重精度,可以在保留模型大部分性能的同时节省内存并加速推理。最近,8 位和 4 位量化技术实现了在消费级硬件上运行 LLMs 的可能性。结合 Llama 模型的发布及高效微调技术(LoRA、QLoRA),这催生了一个丰富的本地 LLMs 生态系统,如今已能与 OpenAI 的 GPT-3.5 和 GPT-4 分庭抗礼。除本文介绍的基础方法外,主要有三种量化技术:NF4、GPTQ 和 GGML。
2025-07-06 14:32:58
989
原创 使用 ORPO 微调 Llama 3
💻 使用 ORPO 微调 Llama 3ORPO 是一种令人振奋的新型微调技术,它将传统的监督式微调与偏好对齐阶段合并为单一流程。这显著降低了训练所需的计算资源和时间成本。实证研究还表明,在不同模型规模和基准测试中,ORPO 的表现均优于其他对齐方法。本文将使用 TRL 库,通过 ORPO 技术对全新的 Llama 3 8B 模型进行微调。指令微调与偏好对齐是使大语言模型(LLMs)适配特定任务的关键技术。然而研究人员发现这种方法存在局限性。
2025-07-06 13:31:21
890
原创 使用DPO微调 Mistral-7b 模型
🥇 偏好数据集预训练的大型语言模型(LLMs)仅能执行下一个词预测任务,这使得它们无法直接回答问题。因此需要对这些基础模型进行指令-答案对的微调,使其成为有用的助手。但这一过程仍可能存在缺陷:经过微调的 LLMs 可能存在偏见、毒性或危害性等问题。这正是人类反馈强化学习(RLHF)的用武之地。RLHF 会为 LLM 提供不同答案,这些答案根据期望行为(有用性、毒性等)进行排序。模型通过学习输出候选答案中的最佳选项,从而模仿我们期望灌输的行为模式。
2025-07-06 11:51:38
890
原创 使用 GPTQ 进行 4 位量化
权重量化的最新进展使我们能够在消费级硬件上运行超大规模语言模型,例如在 RTX 3090 显卡上运行 LLaMA-30B 模型。这得益于新型 4 位量化技术(如 GPTQ、GGML 和 NF4)的应用,这些技术能在性能损失最小的情况下实现模型压缩。在上一篇文章中,我们介绍了基础的 8 位量化技术和卓越的 LLM.int8()方案。本文将深入探讨流行的 GPTQ 算法,解析其工作原理,并通过 AutoGPTQ 库实现该量化方法。🧠 OBQ算法让我们首先介绍要解决的问题。
2025-07-06 11:09:31
743
原创 量化技术入门指南
大型语言模型(LLMs)因其庞大的计算需求而闻名。通常,模型大小通过参数数量(规模)与数值精度(数据类型)相乘计算得出。但为了节省内存,可通过称为量化的过程,使用更低精度的数据类型存储权重。本文我们区分出两大权重量化技术体系:训练后量化(PTQ)是一种直接的技术,它无需重新训练即可将已训练模型的权重转换为更低精度。虽然易于实现,但 PTQ 可能导致性能下降。量化感知训练(QAT)在预训练或微调阶段就融入了权重转换过程,从而提升模型性能。然而 QAT 计算成本高昂,且需要具有代表性的训练数据。
2025-07-06 10:14:58
1004
原创 偏好优化 + 合成指令:两类大模型核心训练数据集盘点
然而,获取合适的数据集可能具有挑战性。例如,如果您的目标是开发一个可以回答各个领域问题的聊天机器人,那么生成训练数据集可以节省您从多个来源收集数据并标准化其格式、风格和语调的时间和精力。您仍然可以将其视为对响应的排序,但在这里我们只有两个排序的响应:选择的响应排在第一位,拒绝的响应排在最后一位。使用此数据集,我们希望模型学习生成像选择的答案一样的答案,同时避免生成像拒绝的答案一样的答案。在本节中,假设我们的目标是微调一个大型语言模型(LLM),使其成为一个能够以教育性的口吻回答各种领域问题的聊天机器人。
2025-07-05 20:55:03
1172
原创 训练大模型,什么样的数据才算“好”?
然而,对于预训练,我们只希望模型学习在批次中给定所有先前token的情况下,一个token的概率。例如,如果您的目标是一次性生成整个对话会话,则推理框架应继续生成,直到遇到<|end_of_text|>,而不是在<|eot_id|>处过早停止。对于指令微调,即把一个基础LLM变成一个聊天模型,EOS token 必须由 LLM 的 tokenizer 插入到训练数据中用户答案的末尾。EOS标记可能仅在训练的后期阶段,通过少量批次进行训练,易于用EOS标记进行标注,或者只是默认插入到每个训练批次的末尾。
2025-07-05 19:58:13
941
原创 LoRA 模型推理与合并指南:兼容 Transformers 与 vLLM 的最佳实践
Qwen2.5 1.5B 是一个较小的模型,而本示例中使用的适配器只在一个小型数据集上训练了一个 epoch,因此。是一个列表,你可以向其中添加多个提示(prompt),这样 vLLM 会根据你的 GPU 显存情况。出于优化考虑,vLLM 还需要知道你的 LoRA 适配器的秩(rank)。现在我们需要定义基础模型的名称、LoRA 适配器的路径,以及合并后模型的保存位置。:虽然不是必需的,但在指定加载模型所使用的数据类型时非常有用。:不是必需的,但在指定加载模型时的数据类型时非常有用。
2025-07-05 18:28:29
1084
原创 LoRA 微调实战指南:基于 Unsloth 的高效训练流程
需要一块至少具有 6GB 显存的 GPU。已在支持 bfloat16 和 FlashAttention 的 GPU 上进行过测试。建议使用 Ampere 架构或更新的 GPU。兼容的 GPU 示例包括:所有 RTX 系列 GPU所有 AXX 系列 GPU,如 A40、A100H100。
2025-07-05 17:59:25
934
原创 基于 Hugging Face Transformers、PEFT 与 TRL 的 LoRA 微调全流程指南
需要一块。已在支持和的 GPU 上进行过测试。建议使用。兼容的 GPU 示例包括:所有所有,如 A40、A100。
2025-07-05 17:41:46
934
原创 LoRA 成本全解析:显存、计算与参数量
既然我已经介绍了LoRA的超参数,我们现在可以估计LoRA微调的内存消耗。在本节结束时,我们将理解为什么LoRA比完整微调消耗的内存少得多。
2025-07-05 15:54:29
816
原创 LoRA 怎么调?一文看懂超参数设置
LoRA 自身也引入了一些额外的超参数,主要包括:秩(rank)、alpha 和目标模块(target modules)。在本节中,我们将定义这些超参数,并通过示例来理解它们的影响。
2025-07-05 15:34:18
805
python大战机器学习
2018-04-28
机器学习实战高清pdf及数据集和代码
2018-03-07
利用python进行数据分析
2018-03-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅