自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(198)
  • 资源 (2)
  • 收藏
  • 关注

原创 LMCache 实现细节与数据流转完全解析

LMCache是一个高效的大语言模型KV缓存系统,采用分层架构设计,包含核心引擎、存储管理和GPU连接器。其主要功能包括将KV缓存从GPU提取到CPU/磁盘/远程存储,并按token分块(默认256)哈希存储。检索时支持前缀匹配和部分命中,通过异步存储优化性能。系统提供与主流推理框架的集成接口,支持多级存储后端,显著提升LLM推理效率。

2025-11-06 17:03:03 624

原创 LMCache 大模型加速利器

LMCache技术文档合集解析 摘要: 本文档集合详细介绍了LMCache框架的核心技术内容,包含四篇深度技术文章。第一篇全面解析LMCache架构与二次开发指南;第二篇提供NPU适配完整方案;第三篇深入探讨P2P GPU通信技术;第四篇分析Python替代CUDA Kernel的可行性。文档覆盖从基础概念到高级优化的全链路技术要点,特别适合希望深入理解LMCache框架并进行定制开发的工程师。每篇文章均包含清晰的阅读指引和耗时预估,其中NPU适配和P2P通信两篇为重点推荐内容,包含大量实战代码示例和性能优

2025-11-06 16:30:46 575

原创 【CUDA 编程思想】FwdKvcacheMla 算子详细数据流程讲解

本文详细解析了FwdKvcacheMla算子的数据流程,主要包括: 架构概述:采用注意力机制核心公式,展示从输入层到输出层的完整数据流,包含维度说明。 输入数据: Query张量:形状[batch,seqlen_q,heads_q,head_size] KV Cache:分块存储历史信息,形状[blocks,block_size,heads_kv,head_size] 序列长度和块映射表:记录每个请求的历史长度和存储位置 计算流程:分批次处理query token,通过以下步骤: 提取Q向量 计算Q@K^T

2025-11-04 18:44:28 830

原创 【vllm】源码解读:DeepSeekV2 DP Rank 专家加载与分配机制

vLLM采用静态专家分配机制,通过线性或轮询策略将专家均匀分布在EP组内。初始化时每个DP rank加载本地分配的专家权重,当需要非本地专家时,通过All-to-All通信实现数据分发、本地计算和结果收集的三步流程。该机制确保专家模型在分布式环境下的高效执行,支持大规模MoE模型的并行推理。

2025-10-27 19:18:06 325

原创 【vllm】源码解读:vLLM 中 DP=8 + EP=8 混合并行原理详解

本文介绍了vLLM框架中DP+EP混合并行策略,专为MoE模型设计。该架构结合8路数据并行(DP)和8路专家并行(EP),将64个专家分布在8个DP副本中,实现8倍吞吐量提升和专家负载均衡。关键特点包括:独立DP引擎进程、混合通信机制(ZMQ+All-to-All)、双重同步机制(DP波次同步+EP专家层同步)。文章详细阐述了DP请求分发、EP专家配置策略,以及针对MoE模型的特殊处理,为大规模MoE模型推理提供了高效解决方案。

2025-10-27 18:53:04 988

原创 【vllm】源码解读:vLLM 中 Data Parallelism DP=8 核心原理详解

vLLM DP=8架构通过8个独立进程(DPEngineCoreProc)实现数据并行,每个进程包含GPU组和TP=8张量并行配置。核心特点包括:1) 采用ZMQ通信实现进程间协调;2) 智能负载均衡机制分发请求;3) 通过DP Coordinator进行全局同步。架构优势在于独立进程设计提升吞吐量,支持动态批处理和请求调度,适用于大规模推理场景。关键技术包含无状态进程组初始化、全局同步检查(每32步执行all-reduce)和虚拟批次执行机制,在保持低延迟的同时实现8倍吞吐提升。

2025-10-27 18:30:26 899

原创 【vllm】源码解读:vLLM 中 Tensor Parallelism (TP=8) 并行原理与权重切分机制

本文介绍了vLLM中Tensor Parallelism(TP)技术的核心原理与实现。TP通过将大型语言模型权重切分到多个GPU上,解决单个GPU内存不足问题并提升计算效率。关键技术包括:矩阵乘法的两种并行化方式(列切分和行切分),其中列切分用于QKV投影等层,行切分用于注意力输出等层;三种权重分布策略(列切分、行切分和复制);以及关键的All-Gather和All-Reduce通信机制。vLLM在Transformer层中灵活应用这些技术,如注意力机制的QKV投影采用列切分,输出投影采用行切分,实现了高效

2025-10-27 17:12:56 703

原创 PH8 大模型平台:极致性价比的智能体开发解决方案

PH8大模型平台以百万Token低于1元的极致价格,为智能体开发带来革命性成本优势。相比主流平台7-20元/百万Token的成本,PH8仅需0.3元(输入)和0.6元(输出)。实际案例显示,10万月活用户的客服机器人月成本从3000-8000元降至90-240元,节省高达97%。平台支持批量处理、缓存优化等策略,使单次调用成本可低至几分钱,为创业公司和大规模AI部署提供前所未有的性价比解决方案。

2025-10-18 09:32:03 364

原创 【vLLM】源码解读:DeepSeek MTP 的推理原理和加速机制

MTP(多令牌预测)通过轻量级模块(2-4层Transformer)在主模型输出的基础上快速预测多个后续token,实现加速文本生成。它利用主模型的hidden_states(包含深层语义理解)和当前token信息,只需少量计算即可完成推测。相比传统逐token生成方式,MTP结合推测性解码能并行预测多个token,显著减少主模型调用次数和总体生成时间。例如生成3个token时,传统方式需300ms(3次主模型调用),而MTP仅需120ms(1次主模型+2次MTP调用)。

2025-10-17 18:27:06 952

原创 【vLLM】源码解读:vllm 模型加载到推理全流程

vLLM + Qwen2 (tp=2) 多进程推理系统摘要 该系统采用多进程架构实现分布式推理,主要流程包括: 初始化阶段:主进程创建LLM引擎,配置模型参数并初始化Tokenizer 多进程管理:通过MultiprocExecutor创建2个子进程(rank=0,1),每个进程绑定不同GPU 分布式设置:子进程初始化分布式环境,建立TCP通信(如tcp://127.0.0.1:29500) 模型加载:子进程分别加载Qwen2-7B模型,自动进行权重分片(tensor_parallel_size=2) 推理

2025-10-15 18:36:09 641

原创 Python的插件机制

Python中的entry_points机制用于实现插件系统和动态功能发现。它允许包声明提供的功能,其他程序可以自动发现和使用这些功能。核心作用包括实现松耦合插件系统、支持第三方扩展和动态功能发现。通过setup.py配置入口点组,主程序可以使用pkg_resources或importlib.metadata加载插件。典型应用包括命令行工具扩展、编辑器插件和Web框架扩展,使应用能通过标准化方式扩展功能而无需修改主程序代码。

2025-10-15 16:20:24 212

原创 【vLLM】源码解读:vllm如何识别到第三方自定义设备的

摘要:本文介绍了vLLM框架中第三方平台插件的识别机制。通过Python的entry_points机制,插件可被自动发现和加载。以GCU平台为例,详细说明了插件开发流程:1)创建包含设备检测函数的插件包;2)实现Platform类提供设备接口;3)在setup.py中注册插件。vLLM启动时会扫描所有注册插件,调用检测函数识别可用设备,并动态加载对应平台类。环境变量VLLM_PLUGINS可控制插件加载,且外部插件优先级高于内置插件。该机制支持开发者灵活扩展新硬件平台。(149字)

2025-10-15 16:06:39 275

原创 体验GPT-OSS-120B:在PH8平台上探索超大规模语言模型的强大能力

摘要:本文介绍了GPT-OSS-120B超大规模语言模型及其在PH8平台的使用方法。GPT-OSS-120B拥有1200亿参数,支持多轮对话、文本创作、代码编写等多项功能。PH8平台提供高效API接入,支持Python调用和流式输出。文章详细展示了基础调用、多轮对话和参数调优的代码示例,并给出不同场景下的最佳实践。该组合为开发者提供了强大的AI工具,显著降低了AI技术应用门槛。

2025-10-13 19:34:49 782

原创 【vLLM】源码解读:模型如何找到自己初始化的类

vLLM模型加载流程解析:从HuggingFace配置到实例化 vLLM通过一套完整的流程实现模型加载: 从HuggingFace的config.json获取"architectures"字段 通过内置映射表(_VLLM_MODELS)将HuggingFace架构名对应到vLLM实现 使用ModelRegistry.resolve_model_cls()动态加载模型类 最终调用initialize_model()完成实例化 该流程支持多种模型类型(文本生成/多模态等),处理特殊情况如架构

2025-10-11 16:47:34 293

原创 【vLLM】源码解读:vllm中engine core 如何加载模型的

vLLM模型加载流程:EngineCore初始化时创建Executor,后者为每个GPU rank创建Worker进程。Worker通过GPUModelRunner加载模型,包括初始化分布式环境、加载权重、应用量化/LoRA优化,并分析内存使用。整个过程在独立Worker进程中完成,主进程仅负责协调。

2025-10-11 16:11:25 404

原创 【vLLM】源码解读:MPClient代码解读

MPClient是多进程模式下的推理客户端,采用ZeroMQ与后台EngineCore进程通信。其工作流程分为四部分:1)初始化阶段创建ZMQ上下文、序列化工具并启动引擎进程;2)请求发送通过ROUTER socket同步/异步发送序列化请求;3)后台引擎接收请求后执行推理;4)输出处理通过独立线程/异步任务从PULL socket接收结果,反序列化后放入队列供用户获取。架构采用生产者-消费者模式,支持同步和异步两种调用方式,实现了高效的前后端解耦。

2025-10-11 14:11:05 428 1

原创 【vLLM】源码解读: launch_core_engines 作用

"launch_core_engines"是vLLM v1引擎的核心启动函数,主要功能包括:1)根据配置选择Ray或进程模式启动引擎;2)设置数据并行架构,支持三种负载均衡模式;3)在需要时启动DP协调器;4)建立ZeroMQ通信通道;5)通过握手机制确保组件就绪。该函数封装了复杂的分布式启动流程,支持单机/多卡/多节点场景,采用上下文管理器确保资源自动清理,是vLLM推理引擎的统一入口点,返回引擎管理器、协调器和通信地址三元组。

2025-10-11 14:08:56 353

原创 【vLLM】源码解读:高性能大语言模型推理引擎的工程设计与实现

vLLM是一个高性能大语言模型推理引擎,采用分层架构设计,包含用户接口层、引擎协调层、调度层、执行层和工作器层。其核心设计理念包括用户友好的LLM类入口、依赖注入和适配器模式。初始化阶段通过并行加载和延迟初始化优化启动时间,涉及模型加载、KV缓存分配和Worker进程创建。推理阶段采用异步处理、连续批处理和PagedAttention技术,实现高效的动态批处理和内存管理。关键特性包括异步API、推测解码和流式输出,性能指标显示首token延迟50-200ms,生成速度20-100 tokens/s,显著提升

2025-10-09 18:16:09 568

原创 Claude Sonnet 4.5:编码界的新王者已降临,国内可轻松体验

Anthropic发布新一代AI编码模型Claude Sonnet 4.5,在复杂任务处理、自主工作时长(30+小时)和代码准确率(接近0%错误)方面实现重大突破。该模型支持跨代码库操作、检查点保存和API增强,在SWE-bench等专业测试中表现优异。国内开发者可通过PH8平台快速接入,利用其提供的Python接口和完整文档实现技术对接。新模型还提升了多领域专业知识能力和安全性,为软件开发自动化带来革新。

2025-10-04 20:31:16 396

原创 DeepSeek-V3.2-Exp + PH8:国产大模型的性价比革命

DeepSeek-V3.2-Exp模型与PH8平台组合实现了国产大模型的性价比突破,输入/输出Token价格仅为0.08/0.32元每百万,成本仅为GPT-4的1/30-1/75。该方案采用稀疏注意力技术提升计算效率,在保持与GPT-4相当性能的同时大幅降低成本。适合教育、企业及个人开发者应用,支持Python快速接入,提供缓存和批量处理等优化建议。目前处于最佳尝试期,兼具价格优势和技术成熟度,是低成本获取AI能力的理想选择。

2025-10-03 13:06:39 1128 1

原创 国内如何使用claude code编程

PH8平台提供国内最低价的Claude Code大模型编程方案,支持Qwen2.5-7B、DeepSeek-V3等国产模型,价格仅为市场1/4。用户可通过简单配置切换不同模型,还提供智能成本优化脚本和多模型对比使用策略。该方案具有国内直连、按需计费、响应快等优势,特别适合需要频繁使用AI编程助手的开发者,能显著降低使用成本同时保持良好体验。平台还提供免费额度供新用户体验。

2025-09-29 21:26:30 451

原创 国内外大模型API平台体验对比与PH8方案

国内模型API:通过PH8访问国内模型,获得更好的网络性能和本地化支持国外模型API:通过PH8代理访问,避免网络限制和复杂鉴权多模型需求:PH8提供一站式解决方案,避免平台切换成本。

2025-09-26 20:45:00 731

原创 国内如何使用GPT-5-Codex

OpenAI发布GPT-5-Codex专为编程任务优化,显著提升代码生成、审查和重构能力。该模型在PH8大模型开放平台提供支持,具有高性能API接口和Python SDK,适合复杂项目开发、代码审查等场景。PH8平台提供价格优势、高性能推理和开箱即用体验,开发者可通过清晰指令和适当参数设置获得最佳效果。

2025-09-25 21:03:23 428

原创 【PH8 大模型开放平台】API调用大模型 - 基于PH8平台

如何使用OpenAI库初始化PH8平台客户端基础调用、多轮对话和流式调用的实现方法关键参数的作用和配置技巧PH8平台的优势和使用方法现在你已经具备了通过API调用大模型的完整能力。建议前往PH8官网获取更多模型信息和体验,开始你的大模型应用开发之旅!💡提示:本文示例基于PH8大模型开放平台,该平台提供免费额度和丰富的模型选择,是学习和开发大模型应用的理想选择。

2025-09-25 19:54:03 693

原创 【PH8 大模型开放平台】AI大模型+软件开发的强大助力

在当今AI技术飞速发展的时代,大语言模型(LLM)正在深刻改变软件开发的传统工序。PH8大模型开放平台作为新一代AI基础设施,为开发者提供了高效、便捷的大模型接入能力,让AI赋能软件开发变得更加简单。

2025-09-24 15:58:49 359

原创 【PH8 大模型开放平台】大模型调用OpenAI范式接口方法

本文介绍了如何使用PH8大模型平台的OpenAI兼容接口调用主流大模型。PH8平台提供统一、高效的API接口,支持文本、图像等多模态场景,具有低价高效、开箱即用等特点。文章详细展示了chat/completions和completions两种接口的调用方法,包括curl和Python示例代码,并提供了自定义调用的Python函数实现。PH8平台支持Claude、GPT、文心一言等多种主流模型,开发者可快速接入使用。

2025-09-22 20:25:01 1005

原创 【PH8 大模型开放平台】Claude Code + PH8:国产大模型的完美融合方案

本文介绍了如何通过PH8大模型开放平台将Claude Code工具与国产大模型(如Qwen、DeepSeek等)无缝对接。主要内容包括:环境配置方法、支持的国产模型列表、多模型切换技巧、高级配置优化、常见问题解决以及最佳实践案例。该方案保留了Claude Code的优秀体验,同时融入国产大模型的中文处理优势,提供开箱即用、成本优化和灵活切换等核心优势,是开发者体验国产AI编程能力的便捷解决方案。

2025-09-22 20:16:21 1402 1

原创 【PH8 大模型开放平台】使用指南

PH8大模型开放平台是一个面向开发者的AI云服务平台,提供免费使用和多模型调用功能。平台特色包括稳定高效的API服务、简单易用的集成方式和完善的支持体系。支持的模型涵盖文本生成、图像生成和视频生成三大类,包括DeepSeek系列、Claude系列、GPT系列等知名大模型。用户可通过简单的API接口快速集成模型到项目中,平台还提供了详细的使用文档和社区支持,帮助开发者轻松实现各种智能化功能。

2025-09-18 09:16:35 1165

原创 【CUDA 编程思想】FusedQKVProj-分组量化矩阵乘法高效实现全流程解析

本文深入分析了Fused QKV Projection算子的native实现,该算子在大语言模型推理中用于高效地将输入特征同时投影到Query、Key、Value三个空间。核心算法包括:1)张量维度解析与验证,确保输入输出维度匹配;2)动态精度选择,根据设备类型自动调整计算精度;3)分组量化处理,通过scale因子实现高效量化;4)矩阵乘法计算,将输入特征与权重矩阵相乘得到QKV输出。该实现通过共享权重矩阵和分组量化技术,显著提升了计算效率,同时保持了数值稳定性。

2025-08-15 16:34:37 1040

原创 【Cuda 编程思想】LinearQaunt-分块量化矩阵乘法计算过程

本文提出了一种量化线性算子方法,通过在分块级别引入缩放因子,实现高效低精度计算。该方法将输入特征维度和输出通道维度切分成块,为每个块分配浮点缩放因子,在计算时先对输入矩阵进行分块缩放,再进行矩阵乘法运算并加上偏置。这种方法能显著减少内存占用和带宽压力(如将fp32压缩为int8),同时通过缩放因子保持接近原始浮点计算的精度。文章详细描述了计算过程,包括CPU/GPU实现和CUDA Triton优化实现,通过动态分块和向量化处理确保高效执行。该方法特别适合需要平衡计算效率和精度的推理场景。

2025-08-15 15:15:09 558

原创 【AI 工业应用 】AI大模型在工业领域(CAD等)的前景与实战

随着人工智能技术的飞速发展,大模型(Large Language Models, LLMs)作为AI领域的前沿技术,正在各行各业掀起变革浪潮。在工业领域,大模型的应用不仅仅是简单的技术迭代,而是对传统制造业思维模式和生产方式的全面重构。本文将探讨AI大模型在工业领域的应用前景、关键技术和实战案例,帮助企业把握数字化转型的机遇。

2025-04-28 15:04:13 2295

原创 【Cuda 编程思想】DeepSpeed 反量化 + 规约求和 + 量化算子 == CPU 实现

【代码】【Cuda 编程思想】DeepSpeed 反量化 + 规约求和 + 量化算子 == CPU 实现。

2025-04-15 17:59:28 282

原创 【Cuda 编程思想】手写一个量化反量化算子Quant

【代码】【Cuda 编程思想】手写一个量化反量化算子Quant。

2025-04-03 12:03:02 391

原创 【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子

【代码】【Cuda 编程思想】案例分析--DeepSpeed量化cuda算子。

2025-04-02 16:13:23 709

原创 【Cuda 编程思想】理解CUDA中的线程协作

线程协作是CUDA编程中的一个核心概念,指的是线程之间相互配合完成任务的方式。在GPU上,成千上万的线程同时运行,如何让它们高效协同工作是提高性能的关键。

2025-04-02 14:52:49 314

原创 【Cuda 编程思想】CUDA线程执行原理

【代码】【Cuda 编程思想】CUDA线程执行原理。

2025-04-02 11:25:03 742

原创 【清华团队Ktransformers 单卡部署deepseek R1满血版】

【清华团队Ktransformers 单卡部署deepseek R1满血版】

2025-03-05 11:39:36 630

原创 【SSH端口转发:实现安全的远程端口映射】

SSH端口转发是一个强大的网络工具,通过本文介绍的脚本,我们可以快速建立一个安全的端口转发通道。这个脚本不仅实现了基本的端口转发功能,还包含了自动清理、保活等实用特性,适合在生产环境中使用。希望这篇文章对你理解和使用SSH端口转发有所帮助!

2025-01-19 10:38:00 1146

原创 【vLLM大模型TPS测试三部曲】

【代码】【vLLM大模型TPS测试三部曲】

2024-12-29 13:12:21 747

原创 【使用CUDA进行半精度浮点数处理的跨步测试】

通过这个简单的示例,我们展示了如何使用CUDA进行半精度浮点数的跨步处理。跨步处理技术可以有效地利用GPU的并行计算能力,适用于处理大规模数据的场景。随着深度学习和高性能计算的不断发展,掌握这些技术将对开发者的工作大有裨益。希望这篇博客能帮助你更好地理解CUDA和半精度浮点数的处理。如果你有任何问题或建议,欢迎在评论区留言!

2024-12-26 15:59:23 715

HADOOP生态系统.docx

hadoop大数据生态,大数据分布式引擎数据分析,思维导图,知识点总结,快速掌握,包括hadoop spark hive elasticsearch kafka

2020-09-03

sd-sv3d 适配生成

sd-sv3d 适配生成

2024-06-12

redis思维导图.docx

redis思维导图,文档中另附链接,让你快速应对redis面试复习,对redis使用场景,以及redis存储原理,查询原理,RDB,AOF等进行汇总,一图快速记忆redis,面试BAT轻松搞定

2020-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除