![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
轻枫过山岗
在学习。
展开
-
Word2Vec的相关知识
Word2Vec的相关知识1.预备知识1.1 统计语言模型统计语言模型是用来计算一个句子的概率的概率模型,通常是基于一个语料库来构建的。而一个句子的概率可以用一下的公式来表示: p(W)=p(wT1)=p(w1,w2,⋅⋅⋅,wT)p(W)=p(w_1^T)=p(w_1,w_2,\cdot\cdot\cdot,w_T)原创 2017-11-28 15:56:17 · 331 阅读 · 0 评论 -
文本预处理
文本预处理的工作1 原始文本数据的获取一般是从网站上爬取需要的数据内容,这里处理的文本主要是英文的文本。获得的数据的形式为:一个文档占据一行。2 Tokenize(令牌化)由于原始的文本是一个文档占据一行,没法对单个词进行统计分析,所有要将单词全部分开,包括将标点符号也要分开。3 stemming&lemma(词干化及词型还原)在英文中,同一个单词会因为时态、语态的不同而出现不同的表现形式,如:go原创 2017-11-28 17:20:52 · 1330 阅读 · 0 评论 -
自然语言处理入门知识
1.《数学之美》吴军 这个书写得特别生动形象,没有太多公式,科普性质。看完对于nlp的许多技术原理都会有初步认识。可以说是自然语言处理最好的入门读物。链接: https://pan.baidu.com/s/1eSphCSa 密码: 59je.2.如何在NLP领域第一次做成一件事 by 周明 微软亚洲研究院首席研究员、自然语言处理顶会ACL候任主席,http://www.msra.cn/zh-cn/n转载 2017-11-24 20:07:26 · 920 阅读 · 0 评论