Mr.Lee jack-CSDN博客

原创 LMCache 实现细节与数据流转完全解析

LMCache是一个高效的大语言模型KV缓存系统，采用分层架构设计，包含核心引擎、存储管理和GPU连接器。其主要功能包括将KV缓存从GPU提取到CPU/磁盘/远程存储，并按token分块（默认256）哈希存储。检索时支持前缀匹配和部分命中，通过异步存储优化性能。系统提供与主流推理框架的集成接口，支持多级存储后端，显著提升LLM推理效率。

2025-11-06 17:03:03 624

LMCache技术文档合集解析摘要：本文档集合详细介绍了LMCache框架的核心技术内容，包含四篇深度技术文章。第一篇全面解析LMCache架构与二次开发指南；第二篇提供NPU适配完整方案；第三篇深入探讨P2P GPU通信技术；第四篇分析Python替代CUDA Kernel的可行性。文档覆盖从基础概念到高级优化的全链路技术要点，特别适合希望深入理解LMCache框架并进行定制开发的工程师。每篇文章均包含清晰的阅读指引和耗时预估，其中NPU适配和P2P通信两篇为重点推荐内容，包含大量实战代码示例和性能优

2025-11-06 16:30:46 575

原创【CUDA 编程思想】FwdKvcacheMla 算子详细数据流程讲解

本文详细解析了FwdKvcacheMla算子的数据流程，主要包括：架构概述：采用注意力机制核心公式，展示从输入层到输出层的完整数据流，包含维度说明。输入数据： Query张量：形状[batch,seqlen_q,heads_q,head_size] KV Cache：分块存储历史信息，形状[blocks,block_size,heads_kv,head_size] 序列长度和块映射表：记录每个请求的历史长度和存储位置计算流程：分批次处理query token，通过以下步骤：提取Q向量计算Q@K^T

2025-11-04 18:44:28 830

原创【vllm】源码解读：DeepSeekV2 DP Rank 专家加载与分配机制

vLLM采用静态专家分配机制，通过线性或轮询策略将专家均匀分布在EP组内。初始化时每个DP rank加载本地分配的专家权重，当需要非本地专家时，通过All-to-All通信实现数据分发、本地计算和结果收集的三步流程。该机制确保专家模型在分布式环境下的高效执行，支持大规模MoE模型的并行推理。

2025-10-27 19:18:06 325

原创【vllm】源码解读：vLLM 中 DP=8 + EP=8 混合并行原理详解

本文介绍了vLLM框架中DP+EP混合并行策略，专为MoE模型设计。该架构结合8路数据并行(DP)和8路专家并行(EP)，将64个专家分布在8个DP副本中，实现8倍吞吐量提升和专家负载均衡。关键特点包括：独立DP引擎进程、混合通信机制(ZMQ+All-to-All)、双重同步机制(DP波次同步+EP专家层同步)。文章详细阐述了DP请求分发、EP专家配置策略，以及针对MoE模型的特殊处理，为大规模MoE模型推理提供了高效解决方案。

2025-10-27 18:53:04 988

原创【vllm】源码解读：vLLM 中 Data Parallelism DP=8 核心原理详解

vLLM DP=8架构通过8个独立进程(DPEngineCoreProc)实现数据并行，每个进程包含GPU组和TP=8张量并行配置。核心特点包括：1) 采用ZMQ通信实现进程间协调；2) 智能负载均衡机制分发请求；3) 通过DP Coordinator进行全局同步。架构优势在于独立进程设计提升吞吐量，支持动态批处理和请求调度，适用于大规模推理场景。关键技术包含无状态进程组初始化、全局同步检查(每32步执行all-reduce)和虚拟批次执行机制，在保持低延迟的同时实现8倍吞吐提升。

2025-10-27 18:30:26 899

原创【vllm】源码解读：vLLM 中 Tensor Parallelism (TP=8) 并行原理与权重切分机制

本文介绍了vLLM中Tensor Parallelism(TP)技术的核心原理与实现。TP通过将大型语言模型权重切分到多个GPU上，解决单个GPU内存不足问题并提升计算效率。关键技术包括：矩阵乘法的两种并行化方式（列切分和行切分），其中列切分用于QKV投影等层，行切分用于注意力输出等层；三种权重分布策略（列切分、行切分和复制）；以及关键的All-Gather和All-Reduce通信机制。vLLM在Transformer层中灵活应用这些技术，如注意力机制的QKV投影采用列切分，输出投影采用行切分，实现了高效

2025-10-27 17:12:56 703

原创 PH8 大模型平台：极致性价比的智能体开发解决方案

PH8大模型平台以百万Token低于1元的极致价格，为智能体开发带来革命性成本优势。相比主流平台7-20元/百万Token的成本，PH8仅需0.3元(输入)和0.6元(输出)。实际案例显示，10万月活用户的客服机器人月成本从3000-8000元降至90-240元，节省高达97%。平台支持批量处理、缓存优化等策略，使单次调用成本可低至几分钱，为创业公司和大规模AI部署提供前所未有的性价比解决方案。

2025-10-18 09:32:03 364

原创【vLLM】源码解读：DeepSeek MTP 的推理原理和加速机制

MTP（多令牌预测）通过轻量级模块（2-4层Transformer）在主模型输出的基础上快速预测多个后续token，实现加速文本生成。它利用主模型的hidden_states（包含深层语义理解）和当前token信息，只需少量计算即可完成推测。相比传统逐token生成方式，MTP结合推测性解码能并行预测多个token，显著减少主模型调用次数和总体生成时间。例如生成3个token时，传统方式需300ms（3次主模型调用），而MTP仅需120ms（1次主模型+2次MTP调用）。

2025-10-17 18:27:06 952

原创【vLLM】源码解读：vllm 模型加载到推理全流程

vLLM + Qwen2 (tp=2) 多进程推理系统摘要该系统采用多进程架构实现分布式推理，主要流程包括：初始化阶段：主进程创建LLM引擎，配置模型参数并初始化Tokenizer 多进程管理：通过MultiprocExecutor创建2个子进程(rank=0,1)，每个进程绑定不同GPU 分布式设置：子进程初始化分布式环境，建立TCP通信(如tcp://127.0.0.1:29500) 模型加载：子进程分别加载Qwen2-7B模型，自动进行权重分片(tensor_parallel_size=2) 推理

2025-10-15 18:36:09 641

原创 Python的插件机制

Python中的entry_points机制用于实现插件系统和动态功能发现。它允许包声明提供的功能，其他程序可以自动发现和使用这些功能。核心作用包括实现松耦合插件系统、支持第三方扩展和动态功能发现。通过setup.py配置入口点组，主程序可以使用pkg_resources或importlib.metadata加载插件。典型应用包括命令行工具扩展、编辑器插件和Web框架扩展，使应用能通过标准化方式扩展功能而无需修改主程序代码。

2025-10-15 16:20:24 212

原创【vLLM】源码解读：vllm如何识别到第三方自定义设备的

摘要：本文介绍了vLLM框架中第三方平台插件的识别机制。通过Python的entry_points机制，插件可被自动发现和加载。以GCU平台为例，详细说明了插件开发流程：1)创建包含设备检测函数的插件包；2)实现Platform类提供设备接口；3)在setup.py中注册插件。vLLM启动时会扫描所有注册插件，调用检测函数识别可用设备，并动态加载对应平台类。环境变量VLLM_PLUGINS可控制插件加载，且外部插件优先级高于内置插件。该机制支持开发者灵活扩展新硬件平台。（149字）

2025-10-15 16:06:39 275

原创体验GPT-OSS-120B：在PH8平台上探索超大规模语言模型的强大能力

摘要：本文介绍了GPT-OSS-120B超大规模语言模型及其在PH8平台的使用方法。GPT-OSS-120B拥有1200亿参数，支持多轮对话、文本创作、代码编写等多项功能。PH8平台提供高效API接入，支持Python调用和流式输出。文章详细展示了基础调用、多轮对话和参数调优的代码示例，并给出不同场景下的最佳实践。该组合为开发者提供了强大的AI工具，显著降低了AI技术应用门槛。

2025-10-13 19:34:49 782

原创【vLLM】源码解读：模型如何找到自己初始化的类

vLLM模型加载流程解析：从HuggingFace配置到实例化 vLLM通过一套完整的流程实现模型加载：从HuggingFace的config.json获取"architectures"字段通过内置映射表(_VLLM_MODELS)将HuggingFace架构名对应到vLLM实现使用ModelRegistry.resolve_model_cls()动态加载模型类最终调用initialize_model()完成实例化该流程支持多种模型类型(文本生成/多模态等)，处理特殊情况如架构

2025-10-11 16:47:34 293

原创【vLLM】源码解读：vllm中engine core 如何加载模型的

vLLM模型加载流程：EngineCore初始化时创建Executor，后者为每个GPU rank创建Worker进程。Worker通过GPUModelRunner加载模型，包括初始化分布式环境、加载权重、应用量化/LoRA优化，并分析内存使用。整个过程在独立Worker进程中完成，主进程仅负责协调。

2025-10-11 16:11:25 404

原创【vLLM】源码解读：MPClient代码解读

MPClient是多进程模式下的推理客户端，采用ZeroMQ与后台EngineCore进程通信。其工作流程分为四部分：1)初始化阶段创建ZMQ上下文、序列化工具并启动引擎进程；2)请求发送通过ROUTER socket同步/异步发送序列化请求；3)后台引擎接收请求后执行推理；4)输出处理通过独立线程/异步任务从PULL socket接收结果，反序列化后放入队列供用户获取。架构采用生产者-消费者模式，支持同步和异步两种调用方式，实现了高效的前后端解耦。

2025-10-11 14:11:05 428 1

原创【vLLM】源码解读: launch_core_engines 作用

"launch_core_engines"是vLLM v1引擎的核心启动函数，主要功能包括：1)根据配置选择Ray或进程模式启动引擎；2)设置数据并行架构，支持三种负载均衡模式；3)在需要时启动DP协调器；4)建立ZeroMQ通信通道；5)通过握手机制确保组件就绪。该函数封装了复杂的分布式启动流程，支持单机/多卡/多节点场景，采用上下文管理器确保资源自动清理，是vLLM推理引擎的统一入口点，返回引擎管理器、协调器和通信地址三元组。

2025-10-11 14:08:56 353

原创【vLLM】源码解读：高性能大语言模型推理引擎的工程设计与实现

vLLM是一个高性能大语言模型推理引擎，采用分层架构设计，包含用户接口层、引擎协调层、调度层、执行层和工作器层。其核心设计理念包括用户友好的LLM类入口、依赖注入和适配器模式。初始化阶段通过并行加载和延迟初始化优化启动时间，涉及模型加载、KV缓存分配和Worker进程创建。推理阶段采用异步处理、连续批处理和PagedAttention技术，实现高效的动态批处理和内存管理。关键特性包括异步API、推测解码和流式输出，性能指标显示首token延迟50-200ms，生成速度20-100 tokens/s，显著提升

2025-10-09 18:16:09 568

原创 Claude Sonnet 4.5：编码界的新王者已降临，国内可轻松体验

Anthropic发布新一代AI编码模型Claude Sonnet 4.5，在复杂任务处理、自主工作时长（30+小时）和代码准确率（接近0%错误）方面实现重大突破。该模型支持跨代码库操作、检查点保存和API增强，在SWE-bench等专业测试中表现优异。国内开发者可通过PH8平台快速接入，利用其提供的Python接口和完整文档实现技术对接。新模型还提升了多领域专业知识能力和安全性，为软件开发自动化带来革新。

2025-10-04 20:31:16 396

原创 DeepSeek-V3.2-Exp + PH8：国产大模型的性价比革命

DeepSeek-V3.2-Exp模型与PH8平台组合实现了国产大模型的性价比突破，输入/输出Token价格仅为0.08/0.32元每百万，成本仅为GPT-4的1/30-1/75。该方案采用稀疏注意力技术提升计算效率，在保持与GPT-4相当性能的同时大幅降低成本。适合教育、企业及个人开发者应用，支持Python快速接入，提供缓存和批量处理等优化建议。目前处于最佳尝试期，兼具价格优势和技术成熟度，是低成本获取AI能力的理想选择。

2025-10-03 13:06:39 1128 1

原创国内如何使用claude code编程

PH8平台提供国内最低价的Claude Code大模型编程方案，支持Qwen2.5-7B、DeepSeek-V3等国产模型，价格仅为市场1/4。用户可通过简单配置切换不同模型，还提供智能成本优化脚本和多模型对比使用策略。该方案具有国内直连、按需计费、响应快等优势，特别适合需要频繁使用AI编程助手的开发者，能显著降低使用成本同时保持良好体验。平台还提供免费额度供新用户体验。

2025-09-29 21:26:30 451

原创国内外大模型API平台体验对比与PH8方案

国内模型API：通过PH8访问国内模型，获得更好的网络性能和本地化支持国外模型API：通过PH8代理访问，避免网络限制和复杂鉴权多模型需求：PH8提供一站式解决方案，避免平台切换成本。

2025-09-26 20:45:00 731

原创国内如何使用GPT-5-Codex

OpenAI发布GPT-5-Codex专为编程任务优化，显著提升代码生成、审查和重构能力。该模型在PH8大模型开放平台提供支持，具有高性能API接口和Python SDK，适合复杂项目开发、代码审查等场景。PH8平台提供价格优势、高性能推理和开箱即用体验，开发者可通过清晰指令和适当参数设置获得最佳效果。

2025-09-25 21:03:23 428

原创【PH8 大模型开放平台】API调用大模型 - 基于PH8平台

如何使用OpenAI库初始化PH8平台客户端基础调用、多轮对话和流式调用的实现方法关键参数的作用和配置技巧PH8平台的优势和使用方法现在你已经具备了通过API调用大模型的完整能力。建议前往PH8官网获取更多模型信息和体验，开始你的大模型应用开发之旅！💡提示：本文示例基于PH8大模型开放平台，该平台提供免费额度和丰富的模型选择，是学习和开发大模型应用的理想选择。

2025-09-25 19:54:03 693

原创【PH8 大模型开放平台】AI大模型+软件开发的强大助力

在当今AI技术飞速发展的时代，大语言模型（LLM）正在深刻改变软件开发的传统工序。PH8大模型开放平台作为新一代AI基础设施，为开发者提供了高效、便捷的大模型接入能力，让AI赋能软件开发变得更加简单。

2025-09-24 15:58:49 359

原创【PH8 大模型开放平台】大模型调用OpenAI范式接口方法

本文介绍了如何使用PH8大模型平台的OpenAI兼容接口调用主流大模型。PH8平台提供统一、高效的API接口，支持文本、图像等多模态场景，具有低价高效、开箱即用等特点。文章详细展示了chat/completions和completions两种接口的调用方法，包括curl和Python示例代码，并提供了自定义调用的Python函数实现。PH8平台支持Claude、GPT、文心一言等多种主流模型，开发者可快速接入使用。

2025-09-22 20:25:01 1005

原创【PH8 大模型开放平台】Claude Code + PH8：国产大模型的完美融合方案

本文介绍了如何通过PH8大模型开放平台将Claude Code工具与国产大模型（如Qwen、DeepSeek等）无缝对接。主要内容包括：环境配置方法、支持的国产模型列表、多模型切换技巧、高级配置优化、常见问题解决以及最佳实践案例。该方案保留了Claude Code的优秀体验，同时融入国产大模型的中文处理优势，提供开箱即用、成本优化和灵活切换等核心优势，是开发者体验国产AI编程能力的便捷解决方案。

2025-09-22 20:16:21 1402 1

原创【PH8 大模型开放平台】使用指南

PH8大模型开放平台是一个面向开发者的AI云服务平台，提供免费使用和多模型调用功能。平台特色包括稳定高效的API服务、简单易用的集成方式和完善的支持体系。支持的模型涵盖文本生成、图像生成和视频生成三大类，包括DeepSeek系列、Claude系列、GPT系列等知名大模型。用户可通过简单的API接口快速集成模型到项目中，平台还提供了详细的使用文档和社区支持，帮助开发者轻松实现各种智能化功能。

2025-09-18 09:16:35 1165

原创【CUDA 编程思想】FusedQKVProj-分组量化矩阵乘法高效实现全流程解析

本文深入分析了Fused QKV Projection算子的native实现，该算子在大语言模型推理中用于高效地将输入特征同时投影到Query、Key、Value三个空间。核心算法包括：1）张量维度解析与验证，确保输入输出维度匹配；2）动态精度选择，根据设备类型自动调整计算精度；3）分组量化处理，通过scale因子实现高效量化；4）矩阵乘法计算，将输入特征与权重矩阵相乘得到QKV输出。该实现通过共享权重矩阵和分组量化技术，显著提升了计算效率，同时保持了数值稳定性。

2025-08-15 16:34:37 1040

原创【Cuda 编程思想】LinearQaunt-分块量化矩阵乘法计算过程

本文提出了一种量化线性算子方法，通过在分块级别引入缩放因子，实现高效低精度计算。该方法将输入特征维度和输出通道维度切分成块，为每个块分配浮点缩放因子，在计算时先对输入矩阵进行分块缩放，再进行矩阵乘法运算并加上偏置。这种方法能显著减少内存占用和带宽压力（如将fp32压缩为int8），同时通过缩放因子保持接近原始浮点计算的精度。文章详细描述了计算过程，包括CPU/GPU实现和CUDA Triton优化实现，通过动态分块和向量化处理确保高效执行。该方法特别适合需要平衡计算效率和精度的推理场景。

2025-08-15 15:15:09 558

原创【AI 工业应用】AI大模型在工业领域(CAD等)的前景与实战

随着人工智能技术的飞速发展，大模型（Large Language Models, LLMs）作为AI领域的前沿技术，正在各行各业掀起变革浪潮。在工业领域，大模型的应用不仅仅是简单的技术迭代，而是对传统制造业思维模式和生产方式的全面重构。本文将探讨AI大模型在工业领域的应用前景、关键技术和实战案例，帮助企业把握数字化转型的机遇。

2025-04-28 15:04:13 2295

原创【Cuda 编程思想】DeepSpeed 反量化 + 规约求和 + 量化算子 == CPU 实现

【代码】【Cuda 编程思想】DeepSpeed 反量化 + 规约求和 + 量化算子 == CPU 实现。

2025-04-15 17:59:28 282

原创【Cuda 编程思想】手写一个量化反量化算子Quant

【代码】【Cuda 编程思想】手写一个量化反量化算子Quant。

2025-04-03 12:03:02 391

原创【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子

【代码】【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子。

2025-04-02 16:13:23 709

原创【Cuda 编程思想】理解CUDA中的线程协作

线程协作是CUDA编程中的一个核心概念，指的是线程之间相互配合完成任务的方式。在GPU上，成千上万的线程同时运行，如何让它们高效协同工作是提高性能的关键。

2025-04-02 14:52:49 314

原创【Cuda 编程思想】CUDA线程执行原理

【代码】【Cuda 编程思想】CUDA线程执行原理。

2025-04-02 11:25:03 742

原创【清华团队Ktransformers 单卡部署deepseek R1满血版】

【清华团队Ktransformers 单卡部署deepseek R1满血版】

2025-03-05 11:39:36 630

原创【SSH端口转发：实现安全的远程端口映射】

SSH端口转发是一个强大的网络工具，通过本文介绍的脚本，我们可以快速建立一个安全的端口转发通道。这个脚本不仅实现了基本的端口转发功能，还包含了自动清理、保活等实用特性，适合在生产环境中使用。希望这篇文章对你理解和使用SSH端口转发有所帮助！

2025-01-19 10:38:00 1146

原创【vLLM大模型TPS测试三部曲】

【代码】【vLLM大模型TPS测试三部曲】

2024-12-29 13:12:21 747

原创【使用CUDA进行半精度浮点数处理的跨步测试】

通过这个简单的示例，我们展示了如何使用CUDA进行半精度浮点数的跨步处理。跨步处理技术可以有效地利用GPU的并行计算能力，适用于处理大规模数据的场景。随着深度学习和高性能计算的不断发展，掌握这些技术将对开发者的工作大有裨益。希望这篇博客能帮助你更好地理解CUDA和半精度浮点数的处理。如果你有任何问题或建议，欢迎在评论区留言！

2024-12-26 15:59:23 715

HADOOP生态系统.docx

sd-sv3d 适配生成

redis思维导图.docx

空空如也