第一节 词的过滤,Removing Stop Words
对于NLP应用,通常先把通用词、出现频率很低的词汇过滤掉
这其实类似于特征筛选的过程
在英文中,比如 the, an,their这些都可以作为停用词来处理,但是也需要考虑自己的应用场景。
NLTK提供了停用词库,可以根据具体场景选择加入或删掉一些停用词。
Low Frequency Words
出现频率特别低的词汇对分析作用不大,一般也会去掉。把通用词和低频词过滤之后,即可以得到一个词典库。
词得标准化操作:
- stemming
- lenimazation
1、Stemming:one way to normalize
词的标准化:把相同意思的单词转为一个单词
-went,go,going-----> go
- fly,flies----------->fli
- deny,denied,denying--------->deni
不能保证还原后的单词是一个有效的原型。
应用最广泛的:PorterStemmer
给定很多词形转变的规则,按照给定的规则进行转换
2、lemmatization
保证生成的原型单词一定符合文法,一定存在在词典中。
第二节:Word Representation——文本的表示
- 如何用向量表达一个单词
- 如何用向量表达一个sequence/document
1、one-hot encoding:单词的表示
向量的维度-词典的大小:词典中单词的个数
2、Sentence Representation(boolean)
boolean representation只用1和0表示字典中的词是否在句子中出现,不考虑每个词出现的次数。出现即为1,没出现为0 。
3、Count-based representation
统计词典中的词在句子中出现的次数,建立一个n维