- 博客(3)
- 收藏
- 关注
原创 超级玄学之bert
bert是transformer的encoder堆叠而成的bert是self-supervise learning(自监督学习)model,没有label,基于masking机制。masking有两种方式,一个是将输入的其中一个向量替换为特殊的token,如上图的蓝色方框mask;另一个是将输入向量随机替换成vocabulary中一个向量,如绿色random。如果是第一种方式,比如输入为‘台湾大学’,把‘湾’遮掩掉然后送入bert,输出的向量经过线性变换和softm...
2022-04-03 13:23:10
936
原创 transformer
Encoder输入b经过self-attention后得到向量a,运用残差连接,将a加上输入的b,得到最终输出,送入layer-normalizationlayer-norm:计算输入向量的均值m和标准差,运用上边的公式将对应的Xi转换,等式右边是Xi,不是,输出输出的结果送入fully-connection,同样运用残差连接,加和后的结果再次进行layer-norm,最后输出Positional Encoding:加上位置信息Add & Norm:residua..
2022-03-28 16:55:07
958
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人