- 博客(4)
- 收藏
- 关注
原创 TextCNN是否忽略了词的顺序?
想请教个问题:TextCNN在convolution操作后会有max pooling的操作,如果把不同的convolution操作看作是提取不同的特征,所有的convolution都是对整个句子进行的,那max pooling之后是不是就完全失去了句子的顺序?希望有人指点一二,感恩...
2019-04-22 17:55:55 368 13
原创 为什么说BERT是bidirectional
BERT是一个deep bidirectional Transformer。Transformer可参考 https://baijiahao.baidu.com/s?id=1622064575970777188&wfr=spider&for=pc 非常详细易懂Transformer是一个encoder-decoder框架。编码器的结构:其中...
2019-04-19 20:55:19 1037
原创 如何理解word2vec中的NCE
以下是自己的一些想法和提问,不一定正确,还望大家指正,感恩!word2vec为什么使用NCE?使用NCE来替代softmax, 是因为softmax在类别很多很多的时候计算量大(计算每个类的得分的时候都需要对所有类求和来做分母),word2vec最后需要输出词表大小的类别,数量很大。NCE相当于将多类别分类变成多个二类分类,正类是输入词的上下文中的某个词,负类是不属于上下文的某些词。什...
2019-04-17 20:59:47 1441
原创 一个LSTM层中隐向量的个数怎么理解
参考 https://www.reddit.com/r/MachineLearning/comments/87djn7/d_what_is_meant_by_number_of_hidden_units_in_an/LSTM有input gate, forget gate, output gate,这些gate都是将本时刻的输入和上一时刻的隐含状态作为输入得到的, 在计算过程中会产生3个本时刻...
2019-04-16 21:59:41 3952 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人