- 博客(350)
- 资源 (3)
- 收藏
- 关注
原创 Unsloth 从原理到实践(基于Ubuntu 22.04)
Unsloth 是 Ubuntu 22.04 环境下 LLM 微调的高效工具,核心优势是低显存、高速度、易上手,通过 QLoRA 优化、CUDA 内核重写等技术,让普通 GPU(如 RTX 3090/4090)也能高效微调 7B/13B 模型。本文覆盖了从原理到全流程实践的核心环节,可根据实际需求调整数据集、微调参数、量化级别,适配不同的业务场景(如指令微调、领域适配)。
2025-12-09 09:55:18
796
原创 SGLang调优:从原理到实践(Ubuntu 22.04 + CUDA 12.6)
先通过KV量化/分页降低显存占用→再通过TensorRT/FP8提升计算效率→最后通过动态批处理/并行策略提升GPU利用率。基于Ubuntu 22.04 + CUDA 12.6,优先启用int8KV量化、TensorRT加速、动态批处理,可在不损失显著精度的前提下,将中小模型吞吐提升23倍,大模型吞吐提升1.52倍。
2025-12-08 09:25:07
1052
原创 vLLM调优:从原理到Ubuntu 22.04实践
基于PagedAttention优化KV Cache(量化、页大小、批处理);基于Continuous Batching最大化批处理效率;结合Ubuntu 22.04系统级优化释放硬件潜力;量化是显存优化的核心,TP是多GPU并行的关键。
2025-12-08 09:11:59
1147
原创 基于ms-swift框架微调Reranker模型(Ubuntu22.04)
摘要:本文详细介绍了Reranker模型的核心原理(Cross-Encoder架构、排序损失函数)与ms-swift框架特性,并提供了Ubuntu22.04环境下完整的Reranker微调实践指南。内容涵盖环境准备(CUDA/Conda配置)、数据格式要求(JSONL成对样本)以及YAML配置文件编写示例,支持LoRA轻量化微调,适用于检索增强生成(RAG)等场景的文档重排优化。(150字)
2025-12-06 00:52:44
624
原创 vLLM 与 SGLang 推理技术深度对比
vLLM与SGLang对比分析 vLLM和SGLang是两种面向不同场景的LLM推理框架。vLLM专注于通用推理的高吞吐量和低延迟,采用PagedAttention和Continuous Batching技术优化显存管理和批处理效率,适合批量API服务。SGLang则针对结构化推理场景,通过Structured Prompt和SGM调度器优化多轮对话、工具调用等复杂流程,提升交互式应用的灵活性。性能上,vLLM在静态批量推理中吞吐量更高,而SGLang在交互式场景延迟更低。开发体验方面,vLLM采用传统AP
2025-12-06 00:51:50
624
原创 基于ms-swift框架微调多模态模型(Ubuntu22.04)
ms-swift(ModelScope Swift)是阿里云ModelScope联合微软推出的大模型开发工具包,核心定位是低代码、高效、通用原生支持多模态模型(视觉-语言为主),兼容Qwen-VL、LLaVA、MiniCPM-V、BLIP-2等主流多模态模型;内置LoRA/QLoRA/全量微调等策略,针对多模态模型优化显存占用;统一的配置化开发模式,通过YAML文件管理所有训练参数,无需大量代码开发;深度集成ModelScope生态,可直接调用平台上的预训练模型和数据集。
2025-12-06 00:51:15
600
原创 基于 ms-swift 框架微调 Embedding 模型(Ubuntu22.04):从原理到实践
摘要: 本文详细介绍了使用华为ms-swift框架微调Embedding模型的方法。核心原理是通过对比学习优化预训练模型的向量空间,采用LoRA技术降低显存消耗。环境配置涵盖Ubuntu系统依赖、MindSpore安装及ms-swift框架部署。数据准备支持三元组和成对标注两种格式,并提供了示例数据集。微调配置通过YAML文件定义关键参数,包括模型类型、训练策略和优化设置。最后给出训练启动命令及日志说明,帮助用户快速实现领域适配的Embedding模型微调。
2025-12-06 00:50:17
905
原创 K8s部署vLLM:原理到实践(基于Ubuntu 22.04)
摘要: 本文详细介绍了在Ubuntu 22.04上部署Kubernetes集群并运行vLLM推理框架的完整流程。vLLM凭借PagedAttention和动态批处理技术显著提升GPU推理效率,支持多GPU并行及主流大模型。部署过程涵盖环境准备(NVIDIA驱动、容器运行时)、K8s集群搭建、vLLM容器化部署及优化(GPU调度、模型持久化)。通过K8s的Device Plugin实现GPU资源管理,Service暴露API接口,ConfigMap/Secret管理配置,最终提供高性能、可扩展的LLM推理服务
2025-12-06 00:49:34
645
原创 K8s部署SGLang:原理到实践(基于Ubuntu 22.04)
本文详细介绍了在Ubuntu 22.04上基于Kubernetes部署SGLang的完整方案。首先分析了Kubernetes+SGLang架构的优势,相比传统单机部署具有更好的扩展性、资源利用率和故障恢复能力。接着提供了Ubuntu系统的优化配置步骤,包括Docker和Kubernetes集群的安装部署。最后重点阐述了SGLang模型的两种Kubernetes部署方案:StatefulSet基础部署适用于中等规模模型,而LeaderWorkerSet高级部署更适合大规模分布式场景。文中包含详细的YAML配置
2025-12-06 00:49:05
840
原创 基于LlamaIndex+Ollama开发AI法律助手(Ubuntu22.04+Python3.12.4)
摘要: 本文详细介绍了基于LlamaIndex构建本地AI法律助手的完整流程。系统采用Ubuntu22.04系统,通过Conda管理Python3.12.4环境,利用Ollama本地部署大模型(支持Llama3/Qwen2)。核心功能包括法律文档加载、向量索引构建和智能问答,特别优化了中文法律文本处理,通过定制系统提示词确保回答的准确性和规范性。实现步骤涵盖环境配置、依赖安装、索引构建及交互式问答引擎开发,适用于法规查询、案例检索等法律场景,所有数据处理均在本地完成,保障数据隐私。
2025-12-06 00:48:26
371
原创 基于LangGraph+VLLM的医疗辅助诊断系统(Ubuntu22.04+A40 48G)
本文介绍基于LangGraph构建医疗辅助诊断工作流的技术实现。系统采用三层架构:模型层通过VLLM本地部署Qwen2-7B-Medical医疗大模型(适配A40 48G显卡);工作流层使用LangGraph构建包含症状收集、初步诊断、检查建议和治疗建议的多节点流程;交互层支持命令行/Gradio界面。详细环境配置包括Ubuntu22.04系统、Miniconda环境、NVIDIA驱动535+CUDA12.1的安装,以及PyTorch、VLLM、LangGraph等核心依赖的部署。文中提供了模型下载脚本、V
2025-12-06 00:47:12
258
原创 基于LangChain与SGLang的本地知识库开发实战
本文介绍了一个完全本地化的RAG系统构建方案,基于LangChain框架和A40 48G显卡资源实现。系统采用的技术栈包括Ubuntu 22.04、Conda环境管理、SGLang推理框架、Chroma向量数据库等。详细阐述了环境配置步骤(包括系统更新、Conda安装、Python环境创建)和核心组件安装(LangChain、SGLang、PyTorch等)。文章提供了文档处理模块和向量存储模块的代码实现,支持PDF/Word/Markdown等多种格式文档的加载、分割和向量化存储。该系统设计注重数据隐私安
2025-12-06 00:46:31
966
原创 基于LangChain和vLLM的维基百科问答系统
本文介绍了基于维基百科的知识问答系统架构及实现方案。系统采用模块化设计,包含知识获取(维基百科实时抓取)、文本处理(LangChain)、向量存储(FAISS)、本地推理(vLLM引擎)和Web界面(Streamlit)五大组件。详细说明了Ubuntu 22.04环境下的配置流程,包括Anaconda安装、CUDA 12.4环境配置以及Python依赖包管理。核心代码实现了维基百科内容检索、文本分割与向量化存储功能,使用HuggingFace的多语言句向量模型进行语义嵌入。系统支持中文内容处理,为后续的问答
2025-12-06 00:45:48
785
原创 基于LangGraph的代码生成与测试自动化系统
├── setup_environment.sh # 环境配置脚本。├── vllm_server.py # vLLM模型服务。├── deploy_system.sh # 系统部署脚本。├── start_all_services.sh # 服务启动脚本。├── stop_services.sh # 服务停止脚本。├── test_system.py # 系统验证脚本。创建Streamlit前端。创建FastAPI后端。
2025-12-06 00:44:48
432
原创 基于LangGraph的聊天机器人模拟评估系统(Ubuntu 2204 + Conda + vLLM)
作者:吴业亮博客:wuyeliang.blog.csdn.net2. 创建并激活Conda环境3. 安装依赖(匹配V100 CUDA 11.8)二、项目结构三、完整代码实现1. requirements.txt2. config.py(核心配置,需替换模型路径)3. model_wrapper.py(VLLM模型封装)4. langgraph_agent.py(LangGraph评估流程)5. web_server.py(FastAPI Web服务)6. fronten
2025-12-06 00:44:01
542
原创 从原理到部署:LLaMA Factory 量化实战(Ubuntu 22.04)——PTQ/GPTQ/AWQ 等 9 种方法
LLaMA Factory为量化提供了统一的接口,Ubuntu 22.04环境下可快速实现9种量化方法的落地。快速部署选PTQ/bitsandbytes;精度优先选QAT/AWQ/GPTQ;极致压缩选HQQ;推理速度优先选EETQ;大模型选AQLM;任务适配选OFTQ。量化的核心是平衡“精度、速度、显存”,建议根据实际场景(显存限制、任务精度要求、推理速度需求)选择合适的方法。
2025-12-06 00:40:29
606
原创 LLaMA-Factory 训练方法原理及实践(Ubuntu 22.04)
阶段核心目标适用场景显存要求通用语言规律学习从头/增量预训练≥16G领域知识适配垂直领域(医疗/法律)≥8GSFT指令-回复映射学习基础功能对齐≥8GRLHF人类偏好对齐高要求的生成质量≥16GDPO简化版偏好对齐快速对齐、低算力场景≥8GKTO偏好+知识对齐事实性要求高的场景≥8G建议优先使用 SFT + DPO 组合(低成本、高效果),垂直领域场景先做 Post-training 再做 SFT/DPO,可最大化模型效果。
2025-12-06 00:23:15
615
原创 LLaMA-Factory 加速技术全解析:FlashAttention/Unsloth/Liger Kernel 原理与 Ubuntu22.04 实践指南
安装额外组件(如flash-attn的transformers集成):核心解决注意力计算的内存瓶颈,是所有加速的基础;Unsloth:针对微调场景的轻量化优化,4bit量化+QLoRA是核心优势;:算子融合+异构调度,进一步提升计算效率,可与前两者叠加。
2025-12-06 00:22:27
948
原创 Transformers 微调预训练模型:原理到实践(Ubuntu22.04 + Conda)
本文从原理到实践,覆盖了Transformers微调的核心逻辑、Ubuntu22.04+Conda环境搭建、基础全微调、进阶LoRA微调,以及常见问题解决方案。微调的本质是迁移学习,根据显存选择全微调/冻结微调/LoRA;Hugging Face生态(Transformers/Datasets/Trainer)大幅简化微调流程;关键参数(学习率、批次大小、文本长度)需根据模型/显存调整。微调生成类模型(如GPT-2、LLaMA)完成文本生成;
2025-12-06 00:14:36
649
原创 LLaMA-Factory 分布式训练实践
快速上手:优先选择 DDP,配置简单、稳定性高;大模型训练:优先选择 DeepSpeed(ZeRO-2/3)或 FSDP,显存效率更高;多机训练:DDP/FSDP 配置更简洁,DeepSpeed 需确保多机通信正常;所有场景建议使用 LoRA 微调(而非全量微调),大幅降低显存占用。
2025-12-06 00:13:30
528
原创 LLaMA-Factory 主流调优算法详解
LLaMA-Factory 是一站式大语言模型(LLM)微调框架,支持多种参数高效调优(PEFT)和全参数调优算法,适配不同算力、精度和任务场景。本文详细解析其中核心的五种调优算法的原理、适用场景、实现逻辑及优缺点。
2025-12-05 18:29:32
694
原创 Ubuntu 22.04上的Bitsandbytes模型量化完全指南:从原理到实践
模块替换:直接使用量化版本的线性层自动量化:使用函数自动处理整个模型配置化量化:通过配置量化参数。
2025-12-05 17:55:13
794
原创 XTuner大模型微调实战指南:核心原理与Ubuntu 22.04全流程详解
XTuner是由MMRazor和MMDeploy团队联合开发的大语言模型微调工具箱,主要特点是将大部分微调场景以配置文件的形式封装,让零基础的非专业人员也能轻松开始模型微调。核心特色高效性:支持大语言模型和多模态图文模型的预训练及轻量级微调,可在8GB显存下微调7B模型灵活性:支持多种大语言模型(InternLM, Llama2, Qwen, Baichuan等)和多模态模型LLaVA全能性:支持增量预训练、指令微调与Agent微调。
2025-12-05 17:50:26
1072
原创 PEFT 2.0进阶:Ubuntu服务器上的高效微调策略与优化
其中 ( A \in \mathbb{R}^{d \times r} ), ( B \in \mathbb{R}^{r \times k} ), 且 ( r \ll \min(d, k) )。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)是一种针对预训练模型(尤其是大语言模型)的微调策略,其核心思想是。例如,768维模型(如BERT-base)使用2e-4,3072维模型(如Llama-3.2-3B)使用5e-5。PEFT训练通常需要比全参数微调更大的学习率。
2025-12-05 17:46:42
662
原创 Ubuntu 22.04 上的 LLaMA Factory 量化实践:bitsandbytes、GPTQ与AWQ详解
在Ubuntu 22.04上使用LLaMA Factory进行模型量化,是一条高效且实用的路径。你的需求推荐方案核心理由快速验证、原型开发配置最简单,无需等待预量化,即插即用。生产环境、高并发服务GPTQ INT4在同等压缩率下,提供了最优的推理速度和精度平衡。对微调后精度要求极高通过激活感知,在微调场景下通常能更好地保持模型性能。显存极度受限内存占用最低,且推理性能稳定。量化技术是大模型能够广泛落地应用的关键一环。
2025-12-05 17:40:35
856
原创 LLaMA Factory DDP并行训练全解析:从核心原理到Ubuntu 22.04实践
DDP是PyTorch生态中用于大规模模型训练的核心并行技术。它的核心原理是将训练数据拆分到多个GPU上,每个设备独立完成前向传播与反向传播计算,再通过梯度同步机制保证所有设备上的模型参数一致性。在理想状态下,这种架构可以实现训练速度的线性提升(即使用N张GPU时,训练速度提升至近N倍)。在大模型微调场景中,DDP的价值尤为突出。以LLaMA 2 7B模型为例,单卡训练通常需要20GB以上显存,训练周期可能长达数天。而通过DDP将数据与计算负载分摊到多张GPU上,可以在保证训练精度不变。
2025-12-05 17:36:23
779
原创 Ubuntu 22.04 上运用LLaMA Factory与DeepSpeed进行高效模型训练
在传统数据并行训练中,每个GPU都保存完整的模型副本(包括参数、梯度和优化器状态),这导致显存使用存在大量冗余。而ZeRO通过将训练状态精细分区,使每个GPU仅保存部分数据,仅在需要时通过集合通信获取其他分区的数据,从而大幅降低单卡显存需求。,只需训练极少参数(通常不足原模型的1%),却能达到接近全参数微调的效果。梯度累积则通过多次小批量计算后再更新权重,模拟大批次训练效果,这对于显存有限的设备尤为重要。(假设优化器状态为FP32,模型参数为FP16),且通信量较小,适合单机多卡环境下的快速训练。
2025-12-05 17:32:06
837
原创 LLaMA Factory训练可视化管理:Loss曲线解析与性能优化
当基础功能无法满足需求时,LLaMA Factory提供了强大的扩展能力。使用自定义Callback进行深度监控你可以创建自定义的Callback来跟踪任何你感兴趣的指标。# 计算总梯度范数# 记录并判断if total_norm > 10.0: # 阈值print(f"警告:梯度爆炸!
2025-12-05 17:21:12
598
原创 基于FSDP的LLaMA-Factory大模型高效训练指南
LLaMA-Factory结合FSDP为训练大规模语言模型提供了强大的解决方案。通过参数分片、混合精度训练和智能容错机制,它有效解决了大模型训练中的显存瓶颈和稳定性问题。对于需要在有限硬件资源上训练大模型的开发者来说,掌握FSDP在LLaMA-Factory中的应用是至关重要的技能。
2025-12-05 17:17:49
539
原创 LLaMA-Factory 模型评估理论与实战:基于 Ubuntu 22.04 的系统化指南
评估数据通常为JSON格式,需要包含指令(Instruction)、输入(Input)和期望输出(Output)。以下是一个情感分析数据的例子。确保系统已安装Docker、Docker Compose以及NVIDIA Container Toolkit(用于GPU支持)。根据你的任务类型选择合适的评估指标(以下是两种主流的部署方式,Docker方式能最大程度避免环境冲突,推荐使用。评估流程遵循“数据准备 → 配置 → 执行 → 分析”的步骤。在开始实践前,理解评估指标背后的逻辑至关重要。
2025-12-05 17:14:14
611
原创 知识蒸馏的原理及适用场景
知识蒸馏是一种让小型学生模型学习大型教师模型的模型压缩技术,其核心目标是在保持性能的同时,显著降低模型的计算需求和体积。下面这个流程图清晰地展示了其典型的训练过程。fill:#333;color:#333;color:#333;fill:none;输入数据大型教师模型小型学生模型生成软目标富含类别间关系的概率分布生成输出logits计算蒸馏损失衡量软目标与学生输出的差异真实标签计算学生损失衡量学生输出与真实标签的差异计算总损失加权求和更新学生模型参数。
2025-12-05 16:52:19
668
原创 MS-SWIFT实战全攻略:轻量微调与高性能部署的完整解决方案
该框架在大模型生态系统中的定位是一个综合性工具集,支持450+大语言模型和150+多模态大模型,覆盖了主流的Qwen、InternLM、GLM、Baichuan、Yi、LLaMA、Mistral等模型系列。它专为大语言模型和多模态大模型的全流程开发而设计,支持从预训练、微调、人类对齐到推理、评测、量化和部署的完整流程。MS-SWIFT作为一个全面而灵活的大模型开发框架,通过其轻量级设计、多模态支持和分布式训练能力,显著降低了大模型开发的技术门槛和资源需求。
2025-12-05 16:46:15
767
原创 ComfyUI 全流程指南:安装、配置、插件与模型选型
ComfyUI 是一款功能强大的 Stable Diffusion 可视化节点编辑器,允许用户通过拖拽节点的方式构建图像生成流程,提供了比传统 UI 更灵活、更精细的控制能力。它适用于需要自定义生成流程的开发者和高级用户,支持各种扩散模型、插件扩展和工作流自动化。
2025-12-05 16:36:45
802
原创 Kohya_ssx 与 Kohya_ss 部署及 LoRA 训练基础指南
Kohya_ss 是一款开源的 Stable Diffusion 模型训练工具,提供图形用户界面(GUI),让用户可直观设置训练参数并生成命令行指令,简化模型训练流程。它支持 Windows、Linux 和 macOS(有限支持)多操作系统,具备 LoRA 训练、样本图像生成等核心功能,且独立于 Stable Diffusion WebUI 运行。
2025-12-05 16:25:10
473
原创 Stable Diffusion WebUI 从安装到实战:原理、部署与问题全解
Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Model)的文本到图像生成人工智能模型,由 Stability AI 主导开发,于 2022 年发布。Stable Diffusion WebUI 是基于 Stable Diffusion 模型的可视化操作界面(以 AUTOMATIC1111 版本最为流行),提供了直观的参数调整、模型管理和图像生成功能,让非专业用户也能便捷使用该模型。
2025-12-05 16:20:36
671
原创 算力自由:用K8s和Ollama打造你的专属AI基础设施
本文详细介绍了在Ubuntu系统上安装NVIDIA显卡驱动、Kubernetes/KubeSphere集群以及GPU Operator的完整流程。主要内容包括:1) 环境准备步骤,如删除旧驱动、禁用开源驱动;2) 通过官方驱动安装及验证方法;3) 使用KubeKey工具部署Kubernetes(1.28.12/1.30.10)和KubeSphere(3.4.1/4.1.3)集群;4) GPU Operator安装前提条件检查及代理配置。文章提供了详细的命令行操作指南和版本兼容性说明,适用于需要在Kubern
2025-12-05 15:13:01
1318
原创 intel x99主板设置上电服务器自动启动
Bootup Numlock State它决定了在计算机开机时,数字小键盘(Num Lock)是处于开启还是关闭状态。当设置为开启(On)时,计算机启动后数字小键盘就可以直接输入数字;如果设置为关闭(Off),开机后数字小键盘默认用于控制光标等功能(如上下左右移动),而不是输入数字。PCH state after G3:是指系统完全关闭电源的状态,此时主板上只有RTC(实时时钟)电源。• OFF:表示系统在重新供电后不会自动启动。• ON:表示系统在重新供电后会自动启动。
2025-01-14 09:40:23
2711
医疗行业超融合架构解决方案.pdf
2019-05-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅