1. 停用词过滤
对于 NLP的应用,我们通常先把停用词、出现频率很低的词汇过滤掉。类似于特征筛选的过程。
少于10次或20次的可以作为低频词去掉。
2. 词的标准化操作(主要是英文)
stemming:将类似词转换成统一格式,但词不一定是实际词。如 fli, deni。。。PORTSTEMMER
lemmazation:与stemming区别是转换成统一格式的词,该词是真实存在的。
stemm 的规则 :需要语言学家把一些常见的变换转化成代码 。
3. 词/句子/文章 转换成向量的方法
3.1 onehot编码
词典词的个数是编码的维度
3.2 句子的boolean表示(跟onehot类似)