- 博客(12)
- 收藏
- 关注
原创 Transformer(6)之位置编码(Positional Encoding)
本文探讨了Transformer模型中位置编码的必要性与实现方法。首先指出Attention机制本身无法感知词序,通过数学示例证明仅靠词向量无法区分"我吃苹果"和"苹果吃我"的语序差异。然后分析三种位置编码方案:整数编号会破坏语义关系,one-hot编码无法表达位置远近关系,而正余弦编码通过多频率波形映射,既能区分位置又保留相对距离信息。详细解读了Transformer原论文的正余弦位置编码公式,展示了不同频率分量对相邻位置变化的敏感性差异。最后说明位置编码与词向量相
2026-01-09 13:51:36
884
原创 Transformer(7)之终结版整体架构
Transformer模型架构主要由编码器和解码器堆叠组成。编码器包含多头自注意力和前馈网络,使用残差连接和层归一化;解码器额外增加了掩码自注意力和交叉注意力机制。输入经过嵌入和位置编码后,通过N层编码器处理,解码器则结合编码器输出进行序列生成。模型最后通过线性层输出预测结果。该架构支持并行计算,通过注意力机制有效捕捉长距离依赖关系。
2026-01-07 10:47:20
184
原创 Transformer(5)之残差连接(Residual Connection)和层归一化(Layer Normalization,LayerNorm)
Transformer架构中的残差连接与层归一化机制解析 Transformer架构通过残差连接(Residual Connection)和层归一化(LayerNorm)的结合使用,有效解决了深层网络的训练难题。残差连接通过保留原始输入信息并叠加子层修改补丁,避免了信息丢失和梯度消失问题。层归一化则对每个token的向量进行尺度标准化,确保网络在稳定数值范围内工作。两者共同构成Add & Norm操作,在Transformer中出现了5次(3次Attention后和2次Feed Forward后)。
2026-01-06 14:08:13
1014
原创 Tranformer(4)之前馈网络(Position-wise Feed-Forward Networks)
摘要: 本文介绍了Transformer中的前馈神经网络(FFN)模块。FFN通过位置独立的非线性变换加工信息,其公式为FFN($x_i$)=max(0,$x_i$$W_1$+$b_1$)$W_2$+$b_2$。FFN的作用是为每个词提供独立的非线性处理能力,弥补Attention仅进行信息搬运的不足。代码实现展示了先升维($d_{model}$→$d_{ff}$)再降维的结构设计,类比于在草稿纸上展开推导后再写答案。这种设计能增强模型表达能力,其中位置独立处理确保每个token使用相同参数进行变换。FFN
2026-01-06 10:01:41
558
原创 Transformer(3)之多头注意力机制(Multi-Head Attention)
摘要 多头注意力机制通过多组独立的Q、K、V变换矩阵,使模型能从不同角度(如语义、位置、指代关系等)理解输入数据。数学上,每个头的输出通过拼接和线性变换映射回原始维度,实现残差连接。代码实现中,可采用两种方式:为每个头单独定义线性层,或通过reshape/transpose操作共享参数。研究表明,性能提升主要源于表示能力的结构性增强,而非单纯参数增加。通过将embed_size按头数分割(head_dim=embed_size/num_heads),可在保持总参数量不变的情况下实现多头优势。
2026-01-05 19:33:20
1060
原创 Transformer(2)之单头注意力机制(Single-Head Attention)
本文深入解析了Transformer中的注意力机制,重点阐述了Q(查询)、K(键)、V(值)矩阵的来源与作用。文章首先指出传统RNN/LSTM模型处理长序列的局限性,进而引出注意力机制的核心思想:通过动态加权汇总上下文信息来理解当前词。Q代表当前词的查询需求,K衡量其他词的相关性,V提供实际信息。文章详细分析了三种注意力应用场景:编码器自注意力、解码器掩码自注意力和编码器-解码器交叉注意力,并提供了相应的PyTorch实现代码。这些机制共同构成了Transformer理解上下文的关键能力。
2026-01-04 20:18:14
997
原创 Transformer(1)-缩放点积注意力
本文通过通俗易懂的方式讲解了Transformer中的缩放点积注意力机制。首先介绍了注意力计算公式及其四个关键步骤:计算相似度、缩放、归一化和加权求和。重点解释了为什么要进行缩放:当token维度较大时,点积结果会导致softmax梯度消失,通过除以√d_k可以缓解这个问题。文中用具体数值例子展示了缩放前后的差异,说明缩放能有效改善梯度问题。最后给出了PyTorch实现代码,并解释了mask机制的作用:避免模型关注填充位置。本文特别适合初学者理解注意力机制的核心原理,通过数值示例和代码实现帮助读者建立直观认
2026-01-04 10:04:06
937
原创 强化学习入门之RHLF-PPO 通俗易懂版本
强化学习概述及其在NLP中的应用 摘要:本文系统介绍了强化学习的基本概念,包括智能体与环境交互中的状态空间、动作空间和奖励机制。重点阐述了价值函数的设计思想,即当前收益与未来收益的折现总和。在自然语言处理领域,将语言模型视为智能体,词表作为动作空间,生成token的过程类比为强化学习中的动作选择。详细分析了RLHF(基于人类反馈的强化学习)中的四个关键模型:Actor模型(生成响应)、Critic模型(预测总收益)、Reward模型(计算即时奖励)和Reference模型(提供约束)。最后讨论了Actor
2025-12-30 10:39:15
1190
原创 统计学习方法 李航 第一章
所谓的标注数据可以理解为标注好的数据,即一张人脸对应于一个ID,最优模型就是使得每一张脸能更好的匹配到唯一的ID,使得这种唯一性的准确率达到最优,以后如果一个人对着小区的人脸识别机器进行识别的时候,模型就会根据输入的人脸进行分析预测这个人是否属于本小区的人。根据算法,可以分为在线学习与批量学习,在线学习就是实时动态地学习,每次接受一个样本,进行预测,之后学习模型,并且不断重复,强化学习就是在线学习的一种,批量学习就是一次接受所有的数据进行学习,然后再进行预测。其实很多的实际应用场景都是要求在线学习的。
2024-09-06 14:14:04
2059
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1