每次读到bert中的Layer Normalization层,都会疑惑其中的alpha参数和beta参数所代表的含义,今天终于读懂其中参数的含义,特此记录
可以看出其中的alpha和beta代表的含义内容
这里再写一下缪和欧米伽对应的关系式
对应的a^{l}的关系式如下
也就是说,综合来讲,整个LayerNormalization的对应公式为:
y
=
s
e
l
f
.
g
a
m
m
a
∗
x
−
μ
σ
2
+
ϵ
+
s
e
l
f
.
b
e
t
a
y = self.gamma*\frac{x-\mu}{\sqrt{\sigma^{2}+\epsilon}}+self.beta
y=self.gamma∗σ2+ϵx−μ+self.beta
bert Layer Normalization中的gamma和beta参数解析
最新推荐文章于 2024-05-06 16:39:30 发布