自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 transformer细节探究

回归正题,为什么能专注于输入的不同方面,首先要明确同一个线性映射很难同时关注到各种信息,虽然也能关注到部分,但是我多头每个线性映射只需要通过学习去关注自己目标的信息,这种关注肯定是在最终softmax输出时占大比例的,也就是说。,transformer之所以可以并行,是因为在计算多头注意力的时候,序列前后计算互不干涉,所以可以同时计算,而不需要像RNN那样,后面的内容需要等待前面的内容计算完成才可计算。多头的意义,就是增加了不同的线性映射,不同的线性映射对应去关注不同的序列 部分or特征, 最终在和。

2024-08-12 12:09:41 844

原创 RLFH短期课程笔记

在学习LLama2的过程中遇到了RLHF方法,介于强化学习内容过多,所以只对RLFH进行系统学习,作如下笔记。

2024-07-29 17:56:20 354

原创 transformer细节探究

面试的时候被拷打了自以为很熟悉的transformer,深感以前学习的不认真不细致,遂作此篇。

2024-07-25 18:28:28 730

原创 交叉熵与MSE的选择

在机器学习和深度学习中,选择损失函数(如交叉熵或均方误差MSE)取决于模型的任务类型和输出的性质。交叉熵和MSE都是常用的损失函数,但它们适用于不同的情景。

2024-07-20 10:28:09 259

原创 三种位置编码

Transformer等模型不像循环神经网络(RNN)或长短时记忆网络(LSTM)那样具有显式的时间步顺序,因此需要一种方法来处理输入序列中的位置信息。本文列出了常见的模型及其位置编码的方法及代码实现。

2024-07-03 18:20:27 685

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除