究极菜购-CSDN博客

原创超级玄学之bert

bert是transformer的encoder堆叠而成的bert是self-supervise learning（自监督学习）model，没有label，基于masking机制。masking有两种方式，一个是将输入的其中一个向量替换为特殊的token，如上图的蓝色方框mask；另一个是将输入向量随机替换成vocabulary中一个向量，如绿色random。如果是第一种方式，比如输入为‘台湾大学’，把‘湾’遮掩掉然后送入bert，输出的向量经过线性变换和softm...

2022-04-03 13:23:10 936

原创 transformer

Encoder输入b经过self-attention后得到向量a，运用残差连接，将a加上输入的b，得到最终输出，送入layer-normalizationlayer-norm：计算输入向量的均值m和标准差，运用上边的公式将对应的Xi转换，等式右边是Xi，不是，输出输出的结果送入fully-connection，同样运用残差连接，加和后的结果再次进行layer-norm，最后输出Positional Encoding：加上位置信息Add & Norm：residua..

2022-03-28 16:55:07 958

原创 self-attention

self-attention

2022-03-28 15:04:36 436

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 超级玄学之bert

原创 transformer

原创 self-attention

空空如也

空空如也

原创超级玄学之bert