博客文章汇总链接

了了然然

已于 2024-07-21 15:20:40 修改

阅读量146

点赞数 4

文章标签：语言模型 python

于 2024-07-20 19:11:40 首次发布

本文链接：https://blog.csdn.net/weixin_45744946/article/details/140575134

版权

此文的作用在于记录自己的学习，方便复习使用，同时尽量简单直观易懂，方便其他读者学习使用。

BP（反向传播算法）
- 简述：分为前向传播和反向传播，反向传播就是链式求导梯度，然后减小误差。
- 参考链接：https://blog.csdn.net/ft_sunshine/article/details/90221691
RNN（BiRNN DNN）
- 激活函数（tanh sigmod ReLU的选择问题）
- U V W的更新
- 参数共享
- 任务类型（5种）
- 参考链接：https://blog.csdn.net/Tink1995/article/details/104868903?spm=1001.2014.3001.5502
LSTM
- 三个门忘记输入输出
- 参考链接：https://blog.csdn.net/Tink1995/article/details/104881633?spm=1001.2014.3001.5502
- 梯度消失和爆炸问题
- 9个参数问题与GRU模型
Attenion
- 本质：en-de
- seq2seq 的限制，从而引出attention (信息丢失和权重分布)
- 序列信息，和关联信息
- 三个阶段 key value
- 三种相似计算
- self-attention的提出（RNN的局限性并行计算 encode与decode 训练与生成）
transform
- 四部分（输入 en de 输出）
- 位置编码训练公式原因（slef-）拼接
- 多头注意力 QKV
- Add＆Normalize 神经网络的退化问题 Layer Normalization（LN）而不使用Batch Normalization（BN）
- Feed-Forward Networks
- Decode 输入（预测训练） attention(key value)
- masking padding sequence