CS224
Xiao_yanling
这个作者很懒,什么都没留下…
展开
-
CS224d lecture03 学习笔记(有点难,之后要再看)
高级词向量表示回顾:skip-gramP(o∣c)=exp(uoTvc)∑w=1Vexp(uwTvc)P(o|c)=\frac{exp(u_o^Tv_c)}{\sum^V_{w=1}exp(u_w^Tv_c)}P(o∣c)=∑w=1Vexp(uwTvc)exp(uoTvc)例子:I like deep learning and NLP.window 1: I like dee...原创 2019-05-17 14:41:35 · 230 阅读 · 0 评论 -
CS224d Assignment1 part2(Neural Network Basics)代码部分
import numpy as npdef sigmoid(x): """ Compute the sigmoid function for the input here. """ ### YOUR CODE HERE f=1/(1+np.exp(-x)) ##sigmoid函数定义 ### END YOUR CODE ...原创 2019-07-21 21:32:23 · 141 阅读 · 0 评论 -
CS224d lecture10 GRU与NMT相关
1.GRUs在时间t处看到的词如何影响后面的n个词(即t+n处看到的)?反向传播中连续的矩阵乘法可能会造成梯度消失。下图是基本的循环神经网络中在时间序列上的传递过程。在门控单元的情况下,除了传统循环神经网络在时间序列上的连接,还会有其余短连接,如下图绿圈表示的连接,能够实现t时间直接影响t+x,在反向传播时就能计算t时间段对t+x时间段的影响,以此学习到长期的依赖关系。GRU具体实现...原创 2019-07-02 18:17:09 · 182 阅读 · 0 评论 -
CS224 树形递归神经网络
词袋模型树形递归神经网络模型人类语言是递归的吗?循环神经网络语言模型和递归神经网络语言模型对比图:递归神经网络模型是从下至上,而循环神经网络模型是不断从前缀得到信息往后执行。目前比较少使用递归神经网络模型的原因是,将一个句子构建成一个树形结构是一个确定性分类选择,任何进行分类选择的地方,都将成为使用反向传播学习模型的一个问题,将这种复杂性置入模型,会使得对GPU不友好,因为它阻碍了分布...原创 2019-07-02 18:16:48 · 2113 阅读 · 3 评论 -
CS224dlecture9 神经机器翻译和注意力机制
注意力机制传统的机器翻译模型在长句上的表现不好,与其使用编码器的最后一个隐层状态Y来生成目标语句,不如直接编码过程中所有的隐层编码向量,即源对应的所有编码状态都可以用来进行翻译工作了,因此我们在翻译任何词的时候,需要知道使用哪个编码器状态,注意力机制告诉我们源的哪一部分是用于下一步的翻译的,也就是建立了源和翻译输出的一种隐式的对应关系,...原创 2019-06-23 23:05:05 · 253 阅读 · 0 评论 -
Google's Multilingual Neural Machine Traslation System:Enabling Zero-Shot translation
支持多语言的翻译系统支持多种输入语言和多种输出语言的翻译系统。以往的方法:(1)多编码器多解码器方案:其中每一个编码器-解码器对对应一个源语言-目标语言对。(2)一种特定的源语言,不同的目标语言对应不同的解码器。(3)不同的源语言对应不同的编码器,各种目标语言共享一个解码器。谷歌的多语言神经机器翻译系统(1)使用单模型来完成不同源语言到不同目标语言的翻译任务,可以很容易的将其...原创 2019-06-23 23:03:22 · 713 阅读 · 0 评论 -
CS224d lecture08 GRU和LSTM
GRUGRU中含有更新门和重置门(计算中得到的最后形式是向量,通过将输入或隐状态相乘,重置门决定了如何把新的输入与之前的记忆相结合,更新门决定多少先前的记忆起作用。),重置门和更新门能够起到解决梯度消失问题的作用。更新门:zt=z_t=zt=重置门:...原创 2019-06-23 23:03:02 · 169 阅读 · 0 评论 -
CS224d lecture07 RNN和语言模式 学习笔记
传统语言模型:基于前面序列的词预测接下来一个词。P(w1,...,wm)=∏i=1mP(wi∣w1,...,wi−1)P(w_1,...,w_m)=\prod^m_{i=1}P(w_i|w_1,...,w_{i-1})P(w1,...,wm)=i=1∏mP(wi∣w1,...,wi−1)计数模型:给定第一个词的情况下,如果想获知第二个词的概率,先合计这两个词在此排序中同时出现的...原创 2019-06-16 22:15:21 · 243 阅读 · 0 评论 -
CS224d 基于迁移的依存句法分析 学习笔记
将句子转化为依存解析树:查看句子的状态,并预知一项迁移,在利用贪心算法,再进行转移,直到得出一个完整的迁移序列,该迁移序列能够对句子的依存解析树进行独立编码。Syntax Net:语法分析器。(1)使用协同训练来影响未标记的数据。协同训练(Tri-training)针对没有足够的数据来完成任务而提出的解决方案:大量未标记的数据和两个高效的截然不同的依存解析器,当它们对一个句子的依存分析树...原创 2019-06-16 22:14:11 · 387 阅读 · 0 评论 -
CS22d lecture06 TensorFlow学习笔记
1.数值计算表示为计算图来进行,使用流式图作为深度学习框架主干。节点类型:(1)变量(2)placeholders(占位符):在执行时间才会接收值的节点。初始化时不分配任何值,仅仅分配一个数据类型,分配一种大小的张量.(3)数学操作节点:矩阵乘法,加法,激活函数等。代码实现:import tensorflow as tfimport numpy as np'model build...原创 2019-06-16 22:08:30 · 131 阅读 · 0 评论 -
CS224d lecture04
训练数据集:{xi,yi}i=1N\{x_i,y_i\}^N_{i=1}{xi,yi}i=1N原创 2019-05-19 21:52:11 · 112 阅读 · 0 评论 -
CS224d Assignment1 part2(Neural Network Basics)非代码部分
由图知计算过程为:①Z1=xW1+b1Z_1=xW_1+b_1Z1=xW1+b1②隐藏层h=sigmoid(Z1)h=sigmoid(Z_1)h=sigmoid(Z1)③Z2=hW2+b2Z_2=hW_2+b_2Z2=hW2+b2④输出层y^=softmax(Z2)\widehat{y}=softmax(Z_2)y=softmax(Z2)损失函数:交叉熵...原创 2019-07-21 21:33:11 · 136 阅读 · 0 评论