（initial）-CSDN博客

原创通往AIGC专家之路：我的大模型技术栈全景指南与学习路径 (持续更新)

《大模型技术学习路径指南》摘要：本文系统梳理了大模型技术栈全景图，划分为应用层（RAG、Agent、框架）、模型层（算法、推理、多模态、LLMOps）和系统层（CUDA、昇腾、异构计算）三大层次。针对不同技术角色（AI应用开发、算法、性能优化、系统架构），提供了定制化学习路径建议，并附各专栏导航链接。旨在帮助开发者根据职业目标选择高效学习路线，快速掌握大模型核心技术。（149字）

2025-08-12 11:28:27 1322

原创 B-02. Shared Memory 深度优化：从 Bank Conflict 到 Tensor Core Swizzling

摘要：本文深入探讨了GPU Shared Memory的微架构设计及其访问优化策略。Shared Memory由32个独立存储体(Bank)组成，采用模32的地址映射机制。文章分析了Bank Conflict的产生原因（如矩阵列访问导致32-way冲突）及其性能影响（带宽可能降至1/32），并提出了经典解决方案——通过Padding（每行增加1个浮点数）打破Bank对齐，实现无冲突访问。最后介绍了现代GPU为适配Tensor Core而采用的高级Swizzling技术。这些优化技术对充分发挥GPU计算性能至

2026-02-21 09:17:34 740

原创 B-01.Global Memory 极致优化：从合并访问到 Hopper TMA 的演进之路

在 Blackwell 架构问世的今天，GB200 单卡的显存带宽已经突破了惊人的 8 TB/s（HBM3e）。面对这样一个天文数字，很多开发者——甚至是经验丰富的工程师——容易产生一种危险的错觉：认为显存带宽已经不再是瓶颈，代码里随便怎么写，显存都能扛得住。然而，事实恰恰相反。随着 GPU 算力以更夸张的速度增长（Blackwell 的 FP4 算力甚至达到了 20 PFLOPS），算访比（Compute-to-Memory Ratio）实际上是在急剧恶化的。

2026-01-20 10:02:58 871

原创 A-10. 性能建模第一性原理：Roofline Model 与 Speed-of-Light 分析

在工程实践中，最令人迷茫的时刻莫过于：你的 Kernel 运行时间从 10ms 优化到了 5ms，老板问你“还能不能更快？”。你该如何回答？是凭感觉说“应该差不多了”，还是甩出一张图表，自信地说“我们已经达到了硬件物理极限的 92%，再优化边际效应极低”？为了回答这个问题，我们需要引入 **Speed-of-Light (SOL)** —— 光速的概念。在这里，光速指的不是物理常数，而是特定硬件在物理定律限制下的**理论性能上限**。

2026-01-08 13:50:41 867

原创 A-09. 调试与错误诊断：Compute Sanitizer 实战与 CUDA 13 增强特性

GPU Core Dump = GPU 在“已经死掉之后”，留下的最后一份现场快照。CPU Core Dump：进程崩溃瞬间的内存 + 寄存器快照GPU Core Dump：GPU 发生致命错误后，设备侧执行状态的快照CPU core dump：同步世界GPU core dump：异步世界 + 事后取证。

2026-01-07 09:26:24 970

原创 A-08. 异步执行模型：Stream, Event 与流水线并发

摘要：本文深入探讨了CUDA编程中Stream的物理本质与应用实践。Stream作为命令队列决定任务提交顺序，而GPU的Compute Engine和Copy Engine等硬件资源实现真正并发。现代GPU通过Hyper-Q技术消除虚假依赖，但Legacy Default Stream仍可能破坏并发性。文章提出采用Per-Thread Default Stream模式避免全局同步，并强调深度优先的流水线设计模式能有效隐藏通信延迟，实现H2D→Compute→D2H三级流水线的最大化重叠执行。

2026-01-06 09:28:05 796

原创 A-07. 内存模型全景：UVA、物理拓扑与编译器视角

本文深入探讨了GPU内存管理的复杂性，揭示了与CPU内存模型的本质差异。GPU内存并非简单的层级结构，而是一个具有显著延迟和带宽差异的物理拓扑网络。文章详细分析了各内存层级的特点与控制手段：寄存器是唯一常数时间访问的存储，但溢出会导致性能骤降；Shared Memory是程序员可控的最后防线；L2 Cache作为一致性边界，其行为反映程序数据布局合理性；而Global Memory的延迟主要源于物理距离。特别指出Local Memory的命名误导性，其实际位于显存中，是寄存器溢出的主要受害者。文章还剖析了U

2026-01-05 09:21:53 1110

原创 A-06. CUDA 工具链详解：从源代码到 Warp 执行的控制边界

本文深入剖析了CUDA工具链的工作原理，揭示了NVCC作为编译器驱动程序的本质角色。主要内容包括： NVCC将代码拆分为主机和设备两部分，分别调度不同编译器处理设备代码的编译流程分为CUDA→PTX→SASS两个阶段，PTX作为虚拟ISA与硬件解耦通过Fatbinary策略实现跨代GPU兼容，包含多版本二进制和PTX后备方案运行时JIT机制带来的启动延迟问题及缓存管理方案 Runtime API与Driver API的层级关系及隐性成本理解这套工具链对于解决CUDA程序开发中的二进制膨胀、JIT延迟

2025-12-31 11:49:19 1035

原创 A-05. Host/Device/Global 的本质：Kernel 的调用约定与指令集架构

本文深入解析了CUDA编程中Host/Device/Global三个概念的本质区别及其性能影响。首先指出Host代表CPU执行环境，具有强一致性和线程语义；Device代表GPU执行资源，以数据并行和吞吐优先为特征；Global并非独立空间，而是GPU内部跨SM可见的逻辑存储层。文章通过"世界边界图"形象展示了CPU与GPU之间的物理隔离，并解释了Global内存的延迟根源在于可见性半径而非存储介质。在参数传递机制方面，揭示了Kernel Parameter Buffer的关键作用，以及

2025-12-29 09:03:56 944

原创 A-04. 线程调度：SIMT 的假象、Divergence 的代价与 Replay 机制

本文深入解析了GPU中的SIMT(单指令多线程)执行模型及其硬件实现机制。SIMT并非简单的多线程并行，而是采用"32个ALU通道共享一个调度器"的向量化执行方式。文章详细阐述了Warp锁步执行原理、分支处理中的掩码机制，以及访存合并的单位性。特别指出Volta架构引入的独立线程调度(ITS)并非实现真正独立执行，而是优化了Warp内部线程的协同效率。通过揭示指令重播、谓词化执行等底层机制，纠正了开发者对GPU架构的常见误解，强调了SIMT"线程级编程+向量化执行"的

2025-12-27 12:45:01 1474

原创 A-03.CUDA 编程模型：Grid/Block/Warp 的物理映射与调度原理

摘要：本文深入解析了CUDA编程模型中逻辑层级与物理硬件的映射关系。GigaThread Engine作为全局调度中枢，负责将Grid中的Block动态分发给SM，采用pull模式按需分配。Block在SM内部执行时遵循"不迁移、不抢占"原则，其调度完全受限于SM的寄存器、共享内存等资源约束。关键认知点包括：Block分发与执行分离、资源占用决定Occupancy、尾部效应由最慢Block决定执行时长。理解这一硬件调度机制是优化CUDA程序性能的理论基础。

2025-12-25 11:05:10 1161

原创 A-02.GPU 硬件架构深度解析：解剖 Ampere, Hopper 与 Blackwell 的微观世界

摘要：本章深入剖析GPU架构，从宏观的GPC层级到微观的SM结构。GPC作为最高物理层级负责工作负载分配，其下属的TPC处理核心图形任务，而SM则是基本处理单元，包含CUDA核心、张量核心等组件。重点分析了H100等GPU大幅增加L2缓存的原因（缓解内存墙问题），并详细解构SM内部的4个SMSP分区及其执行机制，包括Warp Scheduler的双发射特性。最后探讨了Tensor Core的进化，从Ampere的同步阻塞到Hopper的异步流水线设计，揭示其通过4×4矩阵乘加硬件指令实现混合精度计算的原理。

2025-12-24 09:00:00 1014

原创 A-01.CUDA 核心概念总览：从异构计算到 Blackwell 新范式

本文阐述了CUDA编程模型与硬件架构的核心概念。首先对比了CPU（延迟导向）与GPU（吞吐导向）的设计差异，指出CPU擅长逻辑调度而GPU专注并行计算。其次解析了CUDA的三级线程层级（Grid-Block-Thread）与内存层次（Global/Shared/Registers）的物理映射关系，并说明NVCC编译流程会生成多架构代码。文章还介绍了从Ampere到Blackwell的架构演进关键特性，如异步数据传输和硬件加速。最后通过示例项目展示了生产级CUDA代码的工程实践要点，包括错误处理、硬件感知和性

2025-12-23 09:00:00 826

原创导读：在 AI 的黄金时代，重塑你的系统性能观

《极致CUDA：AI系统性能工程实战》专栏深度解析GPU底层架构与优化技术，通过50篇硬核文章系统讲解CUDA编程、内存优化、计算原语及深度学习工程实践。内容涵盖从Ampere到Hopper架构的硬件特性，手写GEMM、FlashAttention等核心算子，并配套开源项目提供可运行代码。专栏旨在帮助开发者突破AI系统黑盒，掌握从晶体管级优化到分布式训练的全栈性能工程能力，应对快速迭代的AI基础设施挑战。

2025-12-22 09:30:38 787

原创第十七章：应用深潜之一：释放Omni的“超级听力”——从语音交互到声学智能

摘要本章以微调后的Qwen2.5-Omni v3.0模型为核心，系统测试其语音交互与声学智能能力边界。首先验证模型在专业领域（工业语音识别、设备异响检测）的优异表现，随后探索其在情感识别、多人对话分离等复杂场景中的局限性。实验表明：通用AI模型需与专用工具（如情感分类器superb/wav2vec2、说话人日志工具pyannote.audio）协同，才能构建最优解决方案。文中通过代码实例演示了"通用大脑+专用工具"的协同范式，为开发高级AI应用提供方法论指导。（字数：149）

2025-08-19 09:00:00 984

原创第十六章：多模态应用全景：在视、听、言的交响中理解世界

多模态AI应用全景：视觉、听觉与语言的协同革命本章系统梳理了多模态AI三大核心模态（视觉、听觉、语言）的协同应用场景。通过消除歧义、增强鲁棒性和构建深度理解，多模态技术正在重塑人机交互范式。图文融合领域，大型多模态模型（MLLM）以对话式交互取代传统专用模型，实现开放式视觉问答、故事性图像描述等突破。音文融合让AI具备音频问答和环境声描述能力，音图协同则解决视听语音识别、声源分离等复杂任务。三模态统一框架（如AV-GPT、Qwen2.5-Omni）标志着AI向"全能感知"迈进，通过Tr

2025-08-14 09:00:00 951

原创第十五章：多模态模型的对齐：在“看听”与“说”之间建立准则

聚焦于**多模态场景**，系统性地回答一个核心问题：**如何确保模型不仅“看懂”了图像，“听懂”了音频，而且其最终生成的文本回答，是忠实于这些多模态输入的、有用的、且安全的？** 我们将把RLHF、DPO等核心对齐技术，完全置于多模态场景下进行剖析，重点讲解如何构建**多模态偏好数据集**，并最终将目光投向对齐技术的未来，为构建负责任的、可信赖的多模态AI奠定基础。

2025-08-11 09:53:19 1405

原创第十四章：让AI“洞察”动态世界：微调Omni进行视频理解

摘要：本文是《驾驭Qwen2.5-Omni微调之旅》系列的第三部分，聚焦视频模态的终极升级。在前两章实现图文、音频处理的基础上，本章将模型进化为能理解动态视频的“智能质检监控员v3.0”。文章深入剖析了视频理解的核心挑战——时空复杂性、数据冗余和显存压力，并揭示了Qwen2.5-Omni通过关键帧采样、时空融合等策略高效压缩视频信息的原理。通过设计事件定位、过程描述等视频指令数据集，并采用层进式微调策略，最终在显存优化技术（如降分辨率、梯度检查点）支持下完成训练，打造出全能多模态AI助手。全文兼具理论深度

2025-08-04 08:00:00 1237

原创第十三章：为AI开启“听觉”：微调Omni实现音图文混合理解与语音交互

本文介绍了如何将Qwen2.5-Omni-7B模型从"图文专家v1.0"升级为具备音频理解能力的"工业零件质检助手v2.0"。作者重点探讨了增量微调的关键技术"混合与重放"策略，即在新数据训练时保持10%-30%的旧数据，以避免灾难性遗忘。文章详细讲解了音频数据的采集与处理、三种新型指令的设计方法（纯音频理解、音图文联合推理、带噪语音识别），以及如何修改微调脚本实现增量训练。最后，作者分析了Qwen2.5-Omni处理音频的底层原理，包括音频特征提

2025-07-30 08:00:00 1410

原创第十二章：多模态模型微调实战：驾驭Qwen2.5-Omni，定制你的全能AI助手

我们将完整地走过从项目规划、模型选型、数据构建，到环境配置、代码执行、过程调试，再到最终评估与未来扩展的全流程。本章的目标，是让您不仅“看懂”微调，更能“动手做”，获得将通用MLLM适配到特定领域需求的宝贵实战经验，亲手“雕刻”出属于你的第一个全能AI助手。

2025-06-27 09:00:00 2358

原创第十一章：多模态模型微调的原理与范式：从“通才”到“专家”的适配艺术

摘要：本章探讨多模态模型从“通才”到“专家”的微调原理与范式。预训练模型虽具备通用知识，但面对特定任务时存在任务形式不匹配、领域偏差等问题，需要通过微调进行适配。全量微调虽直接但成本高且易导致灾难性遗忘，而参数高效微调（PEFT）通过“冻结主干，只动旁支”解决了这些问题。多模态指令微调（M-IT）统一了任务形式，通过指令数据引导模型行为。核心技术LoRA利用低秩矩阵近似参数变化，显著降低计算与存储成本，成为主流方法。LoRA通过超参数（如秩、缩放因子）平衡适配能力与效率，为模型专业化提供高效路径。

2025-06-26 09:15:31 1062

原创第十章：多模态模型的预训练：为AI注入“通用世界知识”

多模态模型预训练：AI的“通识教育” 本文探讨了多模态模型预训练的三大核心任务范式及其作用：对比式任务(ITC)：通过区分正负样本对，让模型学习图文间的全局语义对齐，形成"明辨是非"的能力。匹配式任务(ITM)：通过深度融合判断图文匹配性，培养细粒度分辨能力，实现"火眼金睛找不同"。生成/重构式任务(MLM/MIM)：通过掩码预测训练，使模型掌握跨模态的上下文理解和生成能力，完成"视觉-语言完形填空"。现代模型如BLIP系列通过巧妙组合这些

2025-06-25 09:00:00 1102

原创第九章：大型多模态模型 (MLLMs) 的崛起：当大语言模型“睁开双眼”，AI开始理解世界

如何将大型语言模型（LLM）那强大的语言理解、生成、推理乃至世界知识能力，有效地迁移和扩展到多模态领域，从而创造出一个能够“看懂世界并与之对话”的通用AI？

2025-06-24 09:00:00 929

原创第八章：经典与专用多模态模型架构：从“各司其职”到“协同作战”

在前三章中，我们已经系统地学习了多模态学习的三大理论基石：如何为不同模态的信息构建高质量的），如何将这些表示进行有效的），以及如何建立它们之间精确的我们现在拥有了一个相当完备的“理论工具箱”。本章，我们将正式从“理论”迈向“实践”，进入“”的篇章。我们将深入剖析，在大型多模态模型（MLLM）一统江湖之前，研究者们是如何将这些理论巧妙地组合起来，为解决特定的多模态任务而设计出各种的。本章将以这三大经典任务为线索，通过“图解原理”的方式，剖析这些任务背后的主流架构范式，并探讨它们的设计哲学与权衡。

2025-06-23 09:00:00 1042

原创第七章：多模态对齐：模态间的“握手

本文探讨了多模态学习中的基础性问题——对齐(Alignment)，分析了其与融合(Fusion)的区别与联系。文章指出，对齐是建立跨模态元素间对应关系的关键，而融合则是基于对齐信息的组合过程。文章深入剖析了两大技术范式：隐式对齐通过全局目标（如对比学习）自发学习语义对应，适用于弱监督数据；显式对齐则通过精细标注直接建立模态元素间的精确连接，以视觉定位和开放词汇检测为代表。文章还探讨了评估对齐质量的方法，为构建更可靠的多模态系统奠定基础。

2025-06-13 10:00:00 2502

原创第六章：多模态融合策略：1+1 ＞ 2的艺术

多模态融合：从经典策略到注意力驱动的深度交互摘要：多模态融合旨在整合不同模态信息以实现协同智能效应。本章系统剖析了融合技术的演进路径：从早期特征拼接、晚期决策融合等传统方法，到基于注意力机制的深度交互范式。关键挑战在于解决模态间的异构性、信息不对称和时空异步性等问题。跨模态注意力机制通过动态加权实现了内容感知的特征融合，而协同注意力则进一步扩展为双向交互。这些技术突破使模型能够自适应地捕捉模态间的互补、冗余与关联关系，为构建更强大的多模态智能系统奠定了基础。

2025-06-13 09:00:00 2300

原创第五章：多模态表示学习：跨越模态鸿沟——构建“通用语义”的艺术

如何将来自不同模态（如视觉的像素、文本的符号、音频的波形），这些本质上异构（heterogeneous）的信息，映射到一个统一的、机器能够理解和关联的“通用语义空间”中？我们将剖析并对比两大主流技术范式——对齐表示（以对比学习为核心）和联合表示（以Transformer融合为核心）——的核心原理、代表性模型与设计哲学。同时，本章也会探讨生成式方法在表示学习中的应用，并最终建立起评估多模态表示质量的科学框架，为后续理解更复杂的MLLM等模型奠定坚实的理论基础。

2025-06-10 10:00:00 2982

原创第四章：音频与其他模态信息处理基础 —— 让AI“听懂”世界的声音

本章，我们将共同深入“听觉”的世界，系统理解音频这一特殊时序模态的本质特性与处理挑战。我们将从根本问题出发，探讨如何将连续的声波信号转化为机器可处理的数字特征（如梅尔频谱图），并重点剖析深度学习模型如何捕捉音频中的复杂模式。我们将聚焦于**自动语音识别（ASR）**和**文本到语音合成（TTS）**这两大核心任务，揭示其背后如CTC Loss、注意力机制、WaveNet等关键技术的原理

2025-06-10 09:00:00 3243

原创第三章：视觉信息处理与表示的基础 —— “看懂”世界的基石

视觉信息，以其丰富性、直观性和高维度特性，对机器而言既是宝藏也是挑战。本章的核心使命，便是深入理解计算机视觉领域的核心难题：如何从原始、高维的像素洪流中，提取出对机器有意义、可用于决策和理解的结构化信息。

2025-06-09 10:00:00 2722

原创第二章：文本处理与表示的基础 —— 解码语言的奥秘

本文探讨了文本表示技术从早期简单方法到现代语义嵌入的演变历程。首先介绍了文本预处理步骤（分词、去停用词等），然后分析了早期文本表示方法（如One-Hot编码、词袋模型和TF-IDF）的局限性：高维稀疏、无法捕捉语义关系。重点阐述了词嵌入技术（Word2Vec和GloVe）如何突破这些限制，通过分布式假设学习稠密低维向量，使语义相似的词在向量空间相近。Word2Vec采用预测任务（CBOW和Skip-gram）学习词向量，而GloVe利用全局共现统计信息。这些技术进步为后续语言理解奠定了基础。

2025-06-09 09:00:00 905

原创第一章：多模态AI导论 —— 感知、理解与交互的智能新纪元

摘要多模态AI正迎来发展的黄金时代，它赋予机器同时理解文本、图像、音频等多种信息的能力，使AI认知更接近人类水平。多模态AI面临表示、对齐、推理、生成和迁移五大核心挑战，需解决模态间的异质性与协同问题。其发展历程经历了从早期尝试、深度学习独立突破到Transformer革命，如今以GPT-4V等大型多模态模型为代表进入爆发期。多模态AI将深刻影响医疗、自动驾驶、教育等行业，推动人机交互变革，并可能成为实现通用人工智能的关键路径。尽管面临数据稀缺、模型融合、算力需求等挑战，多模态AI仍展现出广阔的应用前景和

2025-06-05 10:00:00 1209

原创第十二章：LLMOps收官：回顾、前瞻与大语言模型生产化的持续之路

本文回顾了LLMOps（大型语言模型运维）的关键成功要素与常见挑战，并展望了未来发展方向。成功要素包括：高质量数据治理、Prompt工程的核心地位、多维评估体系、PEFT/RLHF技术应用、推理优化策略及负责任AI原则。常见误区则涉及低估评估复杂度、忽视Prompt持续优化、成本失控等问题。未来趋势聚焦于平台工程化、AIOps自动化优化、联邦学习隐私保护以及绿色可持续AI发展。文章强调，LLMOps作为新兴工程学科，需在技术创新与伦理实践中取得平衡，才能推动LLM从实验室走向真实场景的规模化应用。（150字

2025-06-05 09:00:00 685

原创引言：感知世界的AI新范式——与多模态智能一同迈向未来

摘要：多模态AI（Multimodal AI）正推动人工智能从单一感知迈向综合理解，赋予机器同时处理文本、图像、音频、视频等多模态信息的能力。这一技术突破不仅要求模型深度融合不同模态的语义关联，还需解决“表示鸿沟”等核心挑战。当前，以CLIP、GPT-4V等为代表的大型多模态模型（MLLMs）已展现跨模态推理与生成的潜力。本专栏将从技术基础（如Transformer架构）、关键算法（如对比学习）、前沿模型设计到实际应用（如视觉问答、AI Agent）系统剖析多模态AI，并探讨其伦理挑战与AGI前景。通过这

2025-06-04 09:00:00 831

原创第十一章：LLMOps的“军火库”：工具链生态与智慧平台选择

探索当前MLOps和LLMOps的工具链生态。我们会分析是选择构建自定义平台还是采用托管服务的战略考量；深入了解Kubeflow和Flyte等端到端开源平台在LLM场景下的应用；详细对比AWS SageMaker, GCP Vertex AI, Azure ML等主流云厂商的LLMOps能力；并重点梳理LLMOps新兴工具与细分赛道，包括Prompt工程、向量数据库、LLM评估、可观测性等专业化解决方案。最后，我们将提供一个决策框架，帮助你根据自身需求，智慧地选择合适的工具或平台组合。

2025-06-03 10:00:00 1154

原创第十章：LLMOps之魂：构建负责任、高效协作的治理、团队与文化

LLMOps的"软实力"：治理、协作与文化的重要性在LLM（大语言模型）应用的生产化过程中，技术固然重要，但治理、协作与文化等"软实力"同样关键。这些因素决定了LLM应用能否持续创造价值并赢得社会信任。核心挑战：治理框架：需要解决LLM的黑箱特性、潜在偏见、滥用风险等特殊问题团队协作：打破数据科学家、工程师、产品经理等不同职能间的壁垒组织文化：培育创新精神与责任意识并重的文化氛围关键要素：负责任AI原则的落地实施数据、Prompt和模型的全生命周期管理

2025-06-03 09:00:00 626

原创第九章：LLMOps自动化流水线：释放CI/CD/CT的真正力量

走到这里，我们已经一起探索了LLM应用的方方面面，从最初的基础设施搭建，到数据的精心准备，再到模型的训练、验证、部署，以及上线后的持续监控。你可能已经感受到了，LLM的整个生命周期充满了各种复杂且相互关联的环节。如果每一个环节都依赖人工操作，那简直是一场噩梦，不仅效率低下，更容易出错，最终会严重拖慢我们交付价值的速度。

2025-06-02 10:00:00 1942

原创第八章：LLM监控、日志与告警：大语言模型生产化后的“健康守护神”

LLM应用上线仅是起点，持续监控与优化才是关键挑战。文章从五个维度构建LLM监控体系：系统性能（延迟、吞吐量、错误率）、输入特征（Prompt分析、漂移检测）、输出质量（事实性、幻觉率、安全性）、用户反馈（满意度、行为分析）及成本控制（Token消耗、API费用）。强调需结合自动化指标与人工审计，通过主动监控发现潜在问题，优化模型性能与用户体验，同时控制运营成本。有效的监控不仅能快速响应故障，更能为模型迭代提供数据支持，确保LLM应用持续创造价值。

2025-06-02 09:00:00 1641

原创第七章：LLM部署策略与服务化：释放大语言模型的应用价值

本文探讨了大型语言模型（LLM）从开发到部署的关键环节，重点分析了模型服务化面临的独特挑战（如计算资源需求、延迟敏感等）及应对策略。文章系统性地介绍了四种部署模式的选择（在线/批处理/流式/边缘部署），并针对各类应用场景提供了适配建议。在API设计方面，详细阐述了如何构建高效的LLM服务接口，包括RESTful适配、复杂输入输出处理、数据校验，以及异步流式响应等关键技术。通过伪代码示例展示了FastAPI的实践方案，为将LLM能力转化为实际业务价值提供了可落地的技术路径。全文聚焦于打造稳定、高效、可扩展的L

2025-06-01 10:00:00 1540

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Redis数据库.pdf

Prefix-Tuning Optimizing Continuous Prompts for Generation.pdf

MULTITASK PROMPT TUNING.pdf

Instruction Tuning for Large Language Models A Survey.pdf

Prompt Tuning.pdf

LoftQ LoRA-Fine-Tuning-Aware Quantization for LLM.pdf

Few-Shot PEFTis Betterand Cheaper than ICL

FLAN talk external.pdf

FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS

Adapter Tuning.pdf

AdaLoRA Adaptive Budget Allocation for PEFT.pdf

UniPELT A Unified Framework for PEFT.pdf

Scaling Down to Scale Up A Guide to PEFT.pdf

大模型量化技术GPTQ

大模型的量化技术AWQ.pdf

Class-based n-gram models of natural language.pdf

Learning distributed representations of concepts.pdf

LongReward: Improving Long-context Large Language Models with AI

ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Sea

Adaptive-mixtures-of-local-experts.pdf

Llama 2 Open Foundation and Fine-Tuned Chat Models.pdf

A Survey of Large Language Models.pdf

ZeRO-Offload Democratizing Billion-Scale Model Training.pdf

ZeRO-Infinity .pdf

通过简单高效的稀疏性将开关变压器扩展到万亿参数模型.pdf

ST-MOE DESIGNING STABLE AND TRANSFERABLE SPARSE EXPERT MODEL.pdf

GLaM Efficient Scaling of Language Models with MOE.pdf

ZeRO Memory Optimizations Toward Training LLM.pdf

Mixture-of-Experts with Expert Choice Routing.pdf

Mixtral AI.pdf

Learning Factored Representations in a Deep MOEs.pdf

GLM-130B v1.pdf

P-Tuning v2.pdf

P-Tuning.pdf

空空如也