自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_73995396的博客

原创 transformer细节探究

回归正题，为什么能专注于输入的不同方面，首先要明确同一个线性映射很难同时关注到各种信息，虽然也能关注到部分，但是我多头每个线性映射只需要通过学习去关注自己目标的信息，这种关注肯定是在最终softmax输出时占大比例的，也就是说。，transformer之所以可以并行，是因为在计算多头注意力的时候，序列前后计算互不干涉，所以可以同时计算，而不需要像RNN那样，后面的内容需要等待前面的内容计算完成才可计算。多头的意义，就是增加了不同的线性映射，不同的线性映射对应去关注不同的序列部分or特征，最终在和。

2024-08-12 12:09:41 844

原创 RLFH短期课程笔记

在学习LLama2的过程中遇到了RLHF方法，介于强化学习内容过多，所以只对RLFH进行系统学习，作如下笔记。

2024-07-29 17:56:20 354

原创 transformer细节探究

面试的时候被拷打了自以为很熟悉的transformer，深感以前学习的不认真不细致，遂作此篇。

2024-07-25 18:28:28 730

原创交叉熵与MSE的选择

在机器学习和深度学习中，选择损失函数（如交叉熵或均方误差MSE）取决于模型的任务类型和输出的性质。交叉熵和MSE都是常用的损失函数，但它们适用于不同的情景。

2024-07-20 10:28:09 259

原创三种位置编码

Transformer等模型不像循环神经网络（RNN）或长短时记忆网络（LSTM）那样具有显式的时间步顺序，因此需要一种方法来处理输入序列中的位置信息。本文列出了常见的模型及其位置编码的方法及代码实现。

2024-07-03 18:20:27 685

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

the Tarnished CSDN认证博客专家 CSDN认证企业博客

码龄2年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

5: 原创

151万+: 周排名

12万+: 总排名

2872: 访问

: 等级

126: 积分

44: 粉丝

76: 获赞

0: 评论

78: 收藏

私信

关注

热门文章

分类专栏

大模型学习 1篇

最新评论

三种位置编码
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

提示

确定要删除当前文章？

取消删除