自然语言处理
布纸所云
这个作者很懒,什么都没留下…
展开
-
LDA主题模型
LDA主题模型LDA是一种基于概率模型的主题模型算法(generative probabilistic model),用来识别大规模文档集或者语料库中隐含的主题信息。对于语料库中的每篇文档,LDA定义了如下生成过程:对每一篇文档,从主题分布中抽一个主题从上述被抽到的主题对应的单词分布中抽一个单词重复上述过程直至遍历文档中的每个词LDA认为每篇文档是多个主题混合而成,而每个主题可...原创 2018-08-07 12:10:13 · 455 阅读 · 0 评论 -
Word2vec
Word2VecWord2vec是一种从原始语料学习获得低维、实值、稠密的词向量表示的方法,核心思想是使得具有相似上下文的字/词能够在向量空间具有相近的距离。word2vec比较好的解决了one-hot词向量的词汇鸿沟问题,最经典的例子就是“国王-王后=男人-女人”。基本思想和直观理解word2vec的基本框架可以描述为: 我们有一个大规模的语料库以及词库 词库中的每...原创 2018-08-08 09:42:42 · 485 阅读 · 0 评论 -
Sequence Model (三)
Word RepresentationsUsing word embeddingsProperties of word embeddingsEmbedding matrixLearning word embeddingsword2vecNegative sampling详细的笔记: 第二周 自然语言处理与词嵌入(Natural Language Processi...原创 2018-09-02 11:45:03 · 754 阅读 · 0 评论 -
Sequence Model (四)
BleuAttention Model IntuitionAttention ModelBleuOne of the challenges of machine translation is that, given a French sentence, there could be multiple English translations that are equa...原创 2018-09-02 14:42:27 · 359 阅读 · 0 评论 -
fastText
参数说明fasttext(3)-- API 文档 & 参数说明使用fasttext完成文本处理及文本预测官方文档原创 2018-12-03 22:32:41 · 294 阅读 · 0 评论 -
贪婪模式和非贪婪模式
1.什么是正则表达式的贪婪与非贪婪匹配如:String str=“abcaxc”;Patter p=“ab.*c”;贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配。如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(ab.*c)。非贪婪匹配:就是匹配到结果就好,就少的匹配字符。如上面使用模式p匹配字符串str,结果就是匹配到:abc(ab.*c)。2.编程中...转载 2018-12-10 13:49:59 · 819 阅读 · 0 评论