前言
NLP中的一些基本步骤和方法简介
一、文本预处理
1.预处理步骤
(1)Tokenization
注意:在做tokenization时,还需要考虑:
- upper case to lower case?但是 有些大写字母有特殊含义比如:Apple和apple,前者表示苹果公司,后者表示苹果;
- remove stop words,去除停留词,比如:a, the, and
- Typo correction: 对单词纠错,比如:“goooood”,“coool” ->“good”,"cool"等等
(2) Build dictionary
- 可以使用哈希表结构,对文本单词进行频率统计
2.按照词频进行排序,从1开