首先对文本进行分词,因为可以直接用NLTK的分词器,中文的可以用结巴分词
在英文中,往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。
去除停用词,得到最终的词列表
经典的文本数据预处理流程
最新推荐文章于 2024-05-08 06:21:40 发布
首先对文本进行分词,因为可以直接用NLTK的分词器,中文的可以用结巴分词
在英文中,往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。
去除停用词,得到最终的词列表