wiwlk-CSDN博客

原创 Transformer(6)之位置编码（Positional Encoding）

本文探讨了Transformer模型中位置编码的必要性与实现方法。首先指出Attention机制本身无法感知词序，通过数学示例证明仅靠词向量无法区分"我吃苹果"和"苹果吃我"的语序差异。然后分析三种位置编码方案：整数编号会破坏语义关系，one-hot编码无法表达位置远近关系，而正余弦编码通过多频率波形映射，既能区分位置又保留相对距离信息。详细解读了Transformer原论文的正余弦位置编码公式，展示了不同频率分量对相邻位置变化的敏感性差异。最后说明位置编码与词向量相

2026-01-09 13:51:36 884

原创 Transformer（7）之终结版整体架构

Transformer模型架构主要由编码器和解码器堆叠组成。编码器包含多头自注意力和前馈网络，使用残差连接和层归一化；解码器额外增加了掩码自注意力和交叉注意力机制。输入经过嵌入和位置编码后，通过N层编码器处理，解码器则结合编码器输出进行序列生成。模型最后通过线性层输出预测结果。该架构支持并行计算，通过注意力机制有效捕捉长距离依赖关系。

2026-01-07 10:47:20 184

原创 Transformer(5)之残差连接(Residual Connection)和层归一化（Layer Normalization,LayerNorm）

Transformer架构中的残差连接与层归一化机制解析 Transformer架构通过残差连接（Residual Connection）和层归一化（LayerNorm）的结合使用，有效解决了深层网络的训练难题。残差连接通过保留原始输入信息并叠加子层修改补丁，避免了信息丢失和梯度消失问题。层归一化则对每个token的向量进行尺度标准化，确保网络在稳定数值范围内工作。两者共同构成Add & Norm操作，在Transformer中出现了5次（3次Attention后和2次Feed Forward后）。

2026-01-06 14:08:13 1014

原创 Tranformer（4）之前馈网络（Position-wise Feed-Forward Networks）

摘要：本文介绍了Transformer中的前馈神经网络(FFN)模块。FFN通过位置独立的非线性变换加工信息，其公式为FFN($x_i$)=max(0,$x_i$$W_1$+$b_1$)$W_2$+$b_2$。FFN的作用是为每个词提供独立的非线性处理能力，弥补Attention仅进行信息搬运的不足。代码实现展示了先升维（$d_{model}$→$d_{ff}$）再降维的结构设计，类比于在草稿纸上展开推导后再写答案。这种设计能增强模型表达能力，其中位置独立处理确保每个token使用相同参数进行变换。FFN

2026-01-06 10:01:41 558

原创 Transformer（3）之多头注意力机制（Multi-Head Attention）

摘要多头注意力机制通过多组独立的Q、K、V变换矩阵，使模型能从不同角度（如语义、位置、指代关系等）理解输入数据。数学上，每个头的输出通过拼接和线性变换映射回原始维度，实现残差连接。代码实现中，可采用两种方式：为每个头单独定义线性层，或通过reshape/transpose操作共享参数。研究表明，性能提升主要源于表示能力的结构性增强，而非单纯参数增加。通过将embed_size按头数分割(head_dim=embed_size/num_heads)，可在保持总参数量不变的情况下实现多头优势。

2026-01-05 19:33:20 1060

原创 Transformer（2）之单头注意力机制（Single-Head Attention）

本文深入解析了Transformer中的注意力机制，重点阐述了Q(查询)、K(键)、V(值)矩阵的来源与作用。文章首先指出传统RNN/LSTM模型处理长序列的局限性，进而引出注意力机制的核心思想：通过动态加权汇总上下文信息来理解当前词。Q代表当前词的查询需求，K衡量其他词的相关性，V提供实际信息。文章详细分析了三种注意力应用场景：编码器自注意力、解码器掩码自注意力和编码器-解码器交叉注意力，并提供了相应的PyTorch实现代码。这些机制共同构成了Transformer理解上下文的关键能力。

2026-01-04 20:18:14 997

原创 Transformer（1）-缩放点积注意力

本文通过通俗易懂的方式讲解了Transformer中的缩放点积注意力机制。首先介绍了注意力计算公式及其四个关键步骤：计算相似度、缩放、归一化和加权求和。重点解释了为什么要进行缩放：当token维度较大时，点积结果会导致softmax梯度消失，通过除以√d_k可以缓解这个问题。文中用具体数值例子展示了缩放前后的差异，说明缩放能有效改善梯度问题。最后给出了PyTorch实现代码，并解释了mask机制的作用：避免模型关注填充位置。本文特别适合初学者理解注意力机制的核心原理，通过数值示例和代码实现帮助读者建立直观认

2026-01-04 10:04:06 937

原创强化学习入门之RHLF-PPO 通俗易懂版本

强化学习概述及其在NLP中的应用摘要：本文系统介绍了强化学习的基本概念，包括智能体与环境交互中的状态空间、动作空间和奖励机制。重点阐述了价值函数的设计思想，即当前收益与未来收益的折现总和。在自然语言处理领域，将语言模型视为智能体，词表作为动作空间，生成token的过程类比为强化学习中的动作选择。详细分析了RLHF（基于人类反馈的强化学习）中的四个关键模型：Actor模型（生成响应）、Critic模型（预测总收益）、Reward模型（计算即时奖励）和Reference模型（提供约束）。最后讨论了Actor

2025-12-30 10:39:15 1190

原创大语言模型（赵鑫）-读书笔记

语言模型发展

2025-03-12 21:02:42 649

原创统计学习方法李航第三章朴素贝叶斯

主要将朴素贝叶斯算法通过具体的例子讲解把难懂的知识具体化

2024-09-09 09:50:42 1438

原创统计学习方法李航第二章

统计学方法李航老师第二章感知机的简单概述

2024-09-06 16:23:38 371 1

原创统计学习方法李航第一章

所谓的标注数据可以理解为标注好的数据，即一张人脸对应于一个ID,最优模型就是使得每一张脸能更好的匹配到唯一的ID，使得这种唯一性的准确率达到最优，以后如果一个人对着小区的人脸识别机器进行识别的时候，模型就会根据输入的人脸进行分析预测这个人是否属于本小区的人。根据算法，可以分为在线学习与批量学习，在线学习就是实时动态地学习，每次接受一个样本，进行预测，之后学习模型，并且不断重复，强化学习就是在线学习的一种，批量学习就是一次接受所有的数据进行学习，然后再进行预测。其实很多的实际应用场景都是要求在线学习的。

2024-09-06 14:14:04 2059

wiwlk的博客