机器学习
轻枫过山岗
在学习。
展开
-
Word2Vec的相关知识
Word2Vec的相关知识1.预备知识1.1 统计语言模型统计语言模型是用来计算一个句子的概率的概率模型,通常是基于一个语料库来构建的。而一个句子的概率可以用一下的公式来表示: p(W)=p(wT1)=p(w1,w2,⋅⋅⋅,wT)p(W)=p(w_1^T)=p(w_1,w_2,\cdot\cdot\cdot,w_T)原创 2017-11-28 15:56:17 · 329 阅读 · 0 评论 -
文本预处理
文本预处理的工作1 原始文本数据的获取一般是从网站上爬取需要的数据内容,这里处理的文本主要是英文的文本。获得的数据的形式为:一个文档占据一行。2 Tokenize(令牌化)由于原始的文本是一个文档占据一行,没法对单个词进行统计分析,所有要将单词全部分开,包括将标点符号也要分开。3 stemming&lemma(词干化及词型还原)在英文中,同一个单词会因为时态、语态的不同而出现不同的表现形式,如:go原创 2017-11-28 17:20:52 · 1323 阅读 · 0 评论