基于结巴(jieba)的分词。
Jieba是最常用的中文分词工具
import jieba
set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False)
print('/'.join(set_list))
#jieba里没有茶山刘这个词,把它加进去
jieba.add_word('茶山刘')
set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False)
print('/'.join(set_list))
运行结果:
停用词过滤
出现频率特别高的和频率特别低的词对于文本分析帮助不大,一般在预处理阶段会过滤掉。 在英文里,经典的停用词为 “The”, "an"....
方法一:自己定义停用词
# 方法1: 自己建立一个停用词词典
stop_words = ["the", "an", "is", "there"]
# 在使用时: 假设 word_list包含了文本里的单词
word_list = ["we", "are",