![](https://img-blog.csdnimg.cn/20210324172601669.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
过一遍《深度学习进阶——自然语言处理》
文章平均质量分 75
跟着作者思路和代码,自行实现一遍
weixin_51762856
这个作者很懒,什么都没留下…
展开
-
attention结构及其实现
Seq2Seq的不足之处要考虑到最大长度的向量,每一个向量都要扩展到最大向量的长度如果有更长的向量输入,则需要改变模型参数,不够灵活attention结构加权和对于每一个单词或者字对应的向量,都会有一个权重分数,将单词对应的向量与分数进行内积(此处可以用广播或者扩展分数),得到对应于每一个单词向量乘以分数的几个向量,将它们沿axis=1的方向相加,就会得到总的一个表示向量#定义加权和class weighted_sum: def __init__(self): sel原创 2021-04-07 22:20:20 · 579 阅读 · 0 评论 -
RNN及TimeRNN
条件语言模型对于位置在i的单词,常规的word2vec模型考虑前后两个窗口的位置,这里只考虑单词左边位置的部分单词。这个公式考虑了单词周围的信息CBOW的条件语言模型P(W1 ,W2 ,…,Wm ) = ∏(下标t=1,上标m)P(Wt | Wt-1 ,Wt-2 )CBOW模型取窗口大小为2,缺点无法考虑到远处的信息,即使增大窗口,也还是会有更远处的信息无法被记录,同时也会带来计算量和存储量增大的问题RNN基本因子 ht = tanh(ht-1Wh + xt Wx +b)公式中ht-1原创 2021-03-24 19:37:32 · 368 阅读 · 0 评论