NLP相关:
nlp中的Attention注意力机制+Transformer详解 https://zhuanlan.zhihu.com/p/53682800
NLP中的Attention原理和源码解析 https://zhuanlan.zhihu.com/p/43493999
【NLP】Transformer模型原理详解 https://zhuanlan.zhihu.com/p/44121378 https://zhuanlan.zhihu.com/p/46652512
一文读懂BERT(原理篇)https://blog.csdn.net/jiaowoshouzi/article/details/89073944
是什么 | 为什么需要RNN (RNN解决了什么问题) |
如何实现 | |
---|---|---|---|
RNN | RNN是神经网络中的一种,其网络结构是一个链条,链条中的每个节点存储着一个时间步的信息。 训练过程中,输入是一个序列(比如一句话),从左到右,每个时间步,RNN依次读取序列中的每个单词,通过隐藏层的激活函数将信息保存在当前节点中。然后把信息会传到下一个节点。基于这样前后单元相连接的链条结构,RNN实现了信息传递,最后一个单元保存了整个输入序列的信息,可以处理复杂的自然语言分类问题。
双向RNN:将两个相反方向的隐藏层连接到相同的output上,使得output可以能够同时取得过去和未来的信息 优势:能够支持模型使用序列的所有信息,支持在任意位置进行预测, 缺点:必须遍历序列所有信息后,才能够预测 |
RNN 相对于传统神经网络的优势:
下列网络图中,只有Wax, Waa, Wya三种参数
a部分 |