明哥聊AI-CSDN博客

原创【AI基础篇10】RAG：检索增强生成详解

文章摘要： RAG（检索增强生成）通过检索外部知识库解决大模型的三大短板：知识陈旧、私有数据缺失和事实准确性不足。其核心流程分为三阶段：离线索引（文档分块、向量化存储）、在线检索（问题向量化匹配Top-K文档）和生成（拼接Prompt后由LLM回答）。关键环节包括文档清洗、分块策略优化（固定长度/语义分割等）、重叠策略和参数调优。RAG适用于客服、法律、医疗等需私有知识的场景，但不适合创意写作等通用任务。未来趋势包括GraphRAG、Agentic RAG等高级范式，其核心优势在于实时更新知识库而无需重新训

2026-06-06 14:20:48 326

原创【AI基础篇09】大模型幻觉问题：为什么AI会一本正经地胡说八道？

大模型幻觉指AI生成看似合理实则错误的内容，如编造法律案例、医疗建议或历史事实。其根源在于：1）模型本质是统计学习而非真实认知，无法区分"可能"与"正确"；2）训练数据噪声、知识压缩损失及目标偏差（预测vs求真）导致矛盾。幻觉分为事实型、逻辑型等，混合真假的内容最危险。解决方案包括：提示词优化（明确限制）、RAG（检索增强生成）、模型微调（对齐事实性）及量化评估（FActScore指标）。关键在于让模型学会说"我不知道"，而非强行编造。

2026-06-06 09:55:50 296

原创【AI基础篇08】大模型评估指标：困惑度、BLEU、ROUGE

困惑度（Perplexity，PPL）是语言模型最基础的自评估指标，衡量模型对下一个token的"不确定程度"。直觉理解：一个"困惑"的模型："我今天去___" → 模型：可能是"上学"(30%)、"上班"(30%)、"医院"(20%)、"玩"(20%)模型很困惑，不知道哪个更合理困惑度 = 高一个"自信"的模型："我今天去___" → 模型：应该是"上班"(85%)、"上学"(10%)、"医院"(3%)、"玩"(2%)模型很清楚，上班是最合理的困惑度 = 低。

2026-06-05 14:16:18 302

原创【AI基础篇07】预训练 vs 微调 vs 提示工程

本文系统对比了大语言模型的三种使用方式：预训练（Pre-training）、微调（Fine-tuning）和提示工程（Prompt Engineering）。预训练是从零开始学习语言规律，需要海量无标注数据和极高计算成本；微调是定向优化预训练模型，适用于领域适配和私有部署；提示工程则通过优化输入文本来引导模型输出，成本最低但效果依赖设计技巧。文章详细分析了三者在数据需求、计算成本、适用场景等方面的差异，并给出了2026年企业级AI应用的决策框架，建议根据任务复杂度、数据隐私性和预算选择合适方案。

2026-06-05 10:17:42 601

原创【AI基础篇06】位置编码：为什么需要它？

【位置编码：让Transformer理解顺序的关键技术】本文系统梳理了Transformer中位置编码的发展历程与技术原理。针对Attention机制缺乏顺序感知的问题，位置编码通过注入位置信息使模型能够区分"我喜欢猫"和"猫喜欢我"等语序差异。文章首先分析了位置编码需要满足的四大特性：唯一性、距离感知、外推性和相对位置敏感性。随后详细讲解了各类编码方案：绝对位置编码：以Sinusoidal PE为代表，通过三角函数为每个位置生成固定编码可学习编码：BERT采用的可训练位置向量，灵活但外推性差相对位

2026-06-04 14:30:18 357

原创【AI基础篇05】注意力机制：Self-Attention详解

本文深入解析了Transformer中的注意力机制（Self-Attention）。主要内容包括：注意力机制的核心思想：通过Query、Key、Value三个矩阵实现加权关注，解决RNN的长距离依赖问题。数学原理：详细拆解Attention计算公式（QK^T缩放、Softmax归一化、加权求和），解释维度缩放的作用。两种Attention类型：Self-Attention（同源序列内部交互）和Cross-Attention（跨序列信息传递）。扩展机制：多头注意力、因果掩码、以及从MHA到MLA的演进

2026-06-04 09:49:44 570

原创【AI基础篇04】Tokenization：文本如何变成数字，为什么分词器这么重要

文章摘要： Tokenization是将文本转换为数字ID的关键步骤，直接影响模型性能。主流方法包括BPE（GPT采用）、WordPiece（BERT采用）和SentencePiece（多语言友好）。中文分词面临无空格、歧义等挑战，不同模型（如BERT按字切、ChatGLM用SentencePiece）效果差异显著。分词器需平衡词汇表大小、序列长度和语义保留，优化token数量可降低计算成本。实战中需根据任务选择合适的分词器，例如中文场景优先支持子词或字级别的方案。（150字）核心要点：作用：文本→数字

2026-06-03 14:20:17 405

原创【AI基础篇03】大模型参数、算力、数据：Scaling Law的本质，为什么越大越强？

本文深入解析大模型Scaling Law——AI领域的"摩尔定律"。文章从参数规模、数据量、计算量三个维度，揭示模型性能随规模增长的规律：参数翻倍损失降7%，数据翻倍降9%。通过对比GPT-3到DeepSeek-V3的训练成本，阐述Chinchilla最优配比（20 tokens/参数）。同时探讨Scaling边界（数据枯竭、成本爆炸），并介绍Test-time Compute新方向，最后提供实用的模型选型决策树，帮助读者在预算与效果间找到平衡。

2026-06-03 09:48:24 366

原创【AI基础篇02】从Transformer到GPT：生成式AI的演进史，一文看懂这7年的技术革命

本文梳理了生成式AI从Transformer到GPT系列的技术演进历程，主要包含以下内容：关键时间线（2017-2026）： 2017年Transformer架构诞生 2018年BERT和GPT-1出现 2020年GPT-3突破千亿参数 2022年ChatGPT引入RLHF 2023年开源模型LLaMA改变格局 2024年多模态模型爆发技术突破点： Transformer用自注意力机制替代RNN，实现并行计算 BERT确立"预训练+微调"范式 GPT-3展示上下文学习能力 ChatGPT引入人类反馈强化

2026-06-02 11:10:32 372

原创【AI基础篇01】AI大模型基础概念全景图：一文搞懂所有核心术语

本文系统介绍了AI大模型的基础概念和技术框架。主要内容包括：大模型核心概念解析：预训练（语言模型的基础训练）微调（针对特定任务的优化）提示工程（通过设计输入引导输出）对齐（让模型符合人类价值观）涌现（规模带来的能力跃升）幻觉（模型生成错误但自信的内容） Scaling Law（模型性能与规模的规律）大模型技术架构全景图：分为基础层（Transformer等）、能力层（理解/生成等）、优化层（微调/量化等）和应用层（RAG/Agent等）学习路径建议：从基础理论到实践应用的系统性学习路线

2026-06-02 09:55:11 283

原创【大模型面试通关指南】从推理优化到RAG架构，这8个高频考点你答得上来吗？

大模型面试核心考点总结本文针对大模型开发岗面试整理出8个高频核心考点，深入剖析技术原理与工程实践：推理速度瓶颈：自回归生成机制导致的串行计算问题，Prefill与Decode阶段的性能差异 KV Cache优化：通过缓存注意力计算的K/V矩阵实现O(n)时间复杂度，但需付出显存代价量化技术：对比PTQ/AWQ/GPTQ等方案，解析INT8/INT4量化的数学原理与精度权衡 Flash Attention：通过分块计算和内存优化，解决传统注意力计算的O(n²)内存问题 RAG架构：分析检索增强生成系统的

2026-06-01 21:29:20 837

weixin_54908067的博客