![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
yyliunianyy
这个作者很懒,什么都没留下…
展开
-
Bert总结
RNN attention self-attention self-attention1scaled由维度增加导致的距离增大 Additive Attention 和 Dot-product Attention Transformer multi-head query,用来和其他每个key vector进行交互,得到当前vector和其他vector的关联性,或者我们说的weights,用于计算自己的output key,用来和其他query vector进行交互, 帮助其他vector..原创 2020-11-05 19:28:47 · 706 阅读 · 0 评论 -
Keras实现CRF中一些难点理解
苏建林大神的文章对keras实现CRF有了详细的介绍,可以自行了解,详细地址。本文只是记录自己在了解算法细节时遇到的难点。 计算路径的未规范化条件概率(相对概率)。 相对概率包含两部分,状态特征得分(概率图点得分)和转移特征得分(概率图边得分),具体可以看大神文章的定义。状态特征得分:CRF相当于带有可训练参数(转移矩阵)的Loss层,使用网络的各神经元的输出作为结点的得分。转移特征得分:相邻两个时刻的转移得分即对应的真实标签在转移矩阵中的值。 图中代码为bert4keras中 ...原创 2020-11-01 16:53:25 · 878 阅读 · 1 评论