NLP Word2Vec
1、NLP原理及基础
NLTK:
- 自带语料库
- 词性分类库
- 自带分类,分词功能
1.1 文本处理流程:
- 1、文本预处理
- 2、分词
- 3、make features
- 4、machine learning
把人能够理解的文本变成机器可以学习的表达式
1.2 Tokensize:分词
对于英文:
tokens=nltk.word_tokensize(sentence)
对于中文:
自定义语料库,使用HMM/CRF等方法
import jieba
#jieba返回的是列表
seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
#返回所有的可能的分词结果,适用于搜索引擎
seg_list1=jieba.cur_for_search("sentence")
1.3 特殊词处理
使用正则表达式对于非字母字符进行过滤