NLP
文章平均质量分 68
yanhe156
这个作者很懒,什么都没留下…
展开
-
word2vec准确率的意义
原版word2vec 提供了一个compute-accuracy的程序,用来计算准确率。 计算时用到了questions-words.txt 这个文件,这个文件内容如下所以,word2vec 计算准确率(包括gensim也是),其实是测试 一个简单的词汇类比任务的准确率。如果用其他语言的预料,或者是在推荐系统中使用word2vec,这个compute-accuracy就不适用了。当然,也可...原创 2019-04-16 17:32:55 · 1262 阅读 · 0 评论 -
Keras输入变长序列
发现有些代码处理文本时直接调用keras.preprocessing.sequence.pad_sequences(maxlen),这个函数将比这个长的序列截断,比这个短的序列补零。同时后面RNN,LSTM等模型也没做任何处理,这样显然有问题,RNN发明出来就是为了避免做padding的。...原创 2019-01-02 15:49:10 · 5368 阅读 · 1 评论 -
Keras实现用于文本分类的attention机制
keras没有提高attention机制的实现,这里参考kaggle上一个kernel中的attention机制的实现。原创 2018-12-31 18:05:39 · 11810 阅读 · 5 评论 -
SpatialDropout
Dropout()和SpatialDropout1D()的区别:假设input_shape为batch_size, timesteps, features, Dropout(),Dropout()是在所有数据上dropout,SpatialDropout1D()会按对features的某几个维度进行dropout,如图:左图:Dropout(), 右图:SpatialDropout1D()...原创 2019-01-04 13:38:06 · 4237 阅读 · 1 评论 -
如何使用预训练的word embedding
https://nlp.stanford.edu/projects/glove/原创 2018-12-31 17:13:27 · 3200 阅读 · 2 评论