【Transformer】手撕MultiHeadSelfAttention

Syanne�

已于 2024-02-20 20:54:21 修改

阅读量590

点赞数 9

文章标签： transformer 深度学习人工智能 python

于 2024-02-20 20:35:16 首次发布

本文链接：https://blog.csdn.net/weixin_43963833/article/details/136197191

版权

Transformer - MultiHeadSelfAttention 结构

文章目录

Transformer - MultiHeadSelfAttention 结构
前言
0. 图片数据处理
1. 首先框架思路
2. init 需要什么
- - 2.1 传参数
  - 2.2 需要什么function
总结

前言

作为基础知识再深挖一下 MultiHeadSelfAttention 具体意义（面试也可能手撕）欢迎指教～

import torch
import torch.nn as nn
import torch.Functional as F

Class MultiHeadSelfAttention(nn.Module):
	def __init__(self, num_heads, heads_dim, qkv_dim):
		super().__init__()
		## 定义变量
		self.num_heads = num_heads
		self.heads_dim = heads_dim
		self.dim

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Syanne�

关注关注

9
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
【Transformer】手撕MultiHeadSelfAttention

作为基础知识再深挖一下 MultiHeadSelfAttention 具体意义（面试也可能手撕）欢迎指教～## 定义变量self.scale = self.head ** -0.5 # 正则化系数## 定义网络self.to_qkv = nn.Linear(self.dim, self.inner_dim * 3) # qkv初始化后维度对应每个head dim, 一共有3个所以*3。
复制链接

扫一扫