自然语言处理
xiaocong1990
这个作者很懒,什么都没留下…
展开
-
word2vec 中的数学原理详解
详见:http://blog.csdn.net/itplus/article/details/37969519转载 2017-04-17 19:07:04 · 443 阅读 · 0 评论 -
主题模型-LDA浅析
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”转载 2017-05-21 21:11:47 · 412 阅读 · 0 评论 -
TextRank算法为文本生成关键字和摘要
TextRank算法基于PageRank,用于为文本生成关键字和摘要。其论文是:Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004.先从PageRank讲起。PageRankPageRank最开始用来计转载 2017-05-21 20:55:03 · 4067 阅读 · 0 评论 -
Softmax函数加速(Part II)
================================本章内容:基于Softmax函数的优化层次化的Softmax函数(Hierarchical Softmax)差分Softmax函数(Differentiated Softmax)CNN-Softmax基于采样的优化重要性采样(Importa转载 2017-06-16 15:13:20 · 3365 阅读 · 2 评论 -
Softmax函数加速(Part I)
===========================本章内容:基于Softmax函数的优化层次化的Softmax函数(Hierarchical Softmax)差分Softmax函数(Differentiated Softmax)CNN-Softmax基于采样的优化========转载 2017-06-16 14:46:44 · 4794 阅读 · 1 评论 -
pLSA 和 LDA
作者:weizier链接:https://www.zhihu.com/question/23642556/answer/38969800来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。”在这些文档中出现的概率相当。一般来说一篇文档都含有多个主题,这些主题之间所占比例有所不同,一篇文档10%是有关猫90%有关狗,那么这篇文档“狗”这个词出现的次数转载 2017-05-23 20:25:34 · 2672 阅读 · 0 评论 -
字符相似性几种度量方法
无论是做科学研究,还是工程项目,我们总是会碰上要比较字符串的相似性,比如拼写纠错、文本去重、上下文相似性等。度量的方法有很多,到底使用哪一种方法来计算相似性,这就需要我们根据情况选择合适的方法来计算。这里把几种常用到的度量字符串相似性的方法罗列一下,仅供参考,欢迎大家补充指正。1、余弦相似性(cosine similarity) 余弦相似性大家都非常熟悉,它是定义在向量空间模型(VSM原创 2017-05-23 19:24:49 · 1032 阅读 · 0 评论 -
语义分析的一些方法
见:语言分析的一些方法(一) 语言分析的一些方法(二) 语言分析的一些方法(三)转载 2017-04-17 19:55:33 · 982 阅读 · 0 评论 -
带Attention机制的Seq2Seq框架梳理
借着与同事组内分享的机会,根据论文Neural Machine Translation By Jointly Learning to Align and Translate把带Attention机制的Seq2Seq框架Encoder与Decoder部分的流程图画了一下,公式梳理了一遍。Bi-RNN EncoderEncoder的流程如上图所示,最终的输出结果是每个时刻的hidden_state h...转载 2018-05-10 17:24:13 · 751 阅读 · 0 评论