- 博客(5)
- 收藏
- 关注
原创 transformer细节探究
回归正题,为什么能专注于输入的不同方面,首先要明确同一个线性映射很难同时关注到各种信息,虽然也能关注到部分,但是我多头每个线性映射只需要通过学习去关注自己目标的信息,这种关注肯定是在最终softmax输出时占大比例的,也就是说。,transformer之所以可以并行,是因为在计算多头注意力的时候,序列前后计算互不干涉,所以可以同时计算,而不需要像RNN那样,后面的内容需要等待前面的内容计算完成才可计算。多头的意义,就是增加了不同的线性映射,不同的线性映射对应去关注不同的序列 部分or特征, 最终在和。
2024-08-12 12:09:41 844
原创 交叉熵与MSE的选择
在机器学习和深度学习中,选择损失函数(如交叉熵或均方误差MSE)取决于模型的任务类型和输出的性质。交叉熵和MSE都是常用的损失函数,但它们适用于不同的情景。
2024-07-20 10:28:09 259
原创 三种位置编码
Transformer等模型不像循环神经网络(RNN)或长短时记忆网络(LSTM)那样具有显式的时间步顺序,因此需要一种方法来处理输入序列中的位置信息。本文列出了常见的模型及其位置编码的方法及代码实现。
2024-07-03 18:20:27 685
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人