NLP
文章平均质量分 90
张小彬的代码人生
coder
展开
-
gensim 实践篇
继上篇文章了解了一些模型的基本原理以后,这里来讲讲怎么用 gensim,主要参考官方网站的 gensim: Tutorials,这篇博文也只是简单记下一点笔记。主要有三块内容,先讲怎么把文档表示成向量空间模型(VSM,vector space model)中的稀疏向量(sparse vector)形式,然后是怎么用模型(这里叫 topic and transformations)把词袋模型(BoW,原创 2017-06-16 16:21:11 · 5284 阅读 · 0 评论 -
gensim 理论篇
gensimgensim 是 Radim Rehurek 写的一个用来处理文本相似度的 python 库。可以很方便的用 tfidf,LDA,LSA,word2vec 等模型,涵盖了 NLP 里常见的词袋模型,主题模型,词嵌入等。下面简单介绍一下这些概念。Vector Space model在自然语言处理中,我们经常需要表示一个文档。一种常见的做法是写成向量的形式,比如直接统计一下该文章的词频,那么原创 2017-06-15 17:35:06 · 2239 阅读 · 0 评论 -
word2vec 笔记
word2vec 是 Google 于 2013年开源的一个用于获取词向量的工具包,作者是 Tomas Mikolov,不过现在他已经从 Google Brain 跳槽到了 Facebook Research,后来还参与了 fasttext 项目的研究。下面是我读博客 word2vec 中的数学原理 的一些笔记和总结。Language Model (语言模型)统计语言模型(statistical l原创 2017-07-07 15:07:38 · 4953 阅读 · 0 评论 -
论文阅读:CopyNet
论文《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》CopyNet 是在 Seq2Seq + Attention 的基础上,引入了拷贝机制,对某些任务会有所擅长。模型结构如下图 实现上有关键两点(即图中右边的上下两个矩形框),Prediction with Copying and Generati...原创 2017-08-03 20:40:44 · 10591 阅读 · 5 评论