词的标准化
词的标准化一般用于英文文本,用于将不同时态、不同人称或单复数的同一单词统一映射成同一种拼写方式,有Stemming和Lemmazation两类算法。
Stemming类算法根据语言学规则对单词进行标准化,它转化的结果并不一定是一个真实存在的单词,如fly和flies会标准化为fli。Lemmazation是一类更为严格的算法,它的转化结果一定是一个真实存在的单词。
单词标准化实现代码:
from nltk.stem.porter import *
stemmer = PorterStemmer()
word_list = [……]
stand_words = [stemmer.stem(word_list[i]) for i in range(len(word_list))]