import jieba
把jieba引入进来
seg_list = jieba.cut(‘快使用双截棍’,cut_all=True)
分词列表=在jieba中把这句话用全模式做分词
cut_all=False
用精确模式做分词
print(‘,’.join(seg_list))
用逗号把分好的词分开
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
在jieba.analyse里提取关键词(文本,关键词数量,权重值,词性)
(这是tf-idf算法提取)
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))
这是基于textrank算法提取
import jieba.posseg as pseg
引入划分词性的工具
segword=pseg.cut(‘快使用双截棍’)
把词分了,词性也给我标出来
for word,flag in segword:
print (’%s%s’%(word,flag))
每个在segword里的元素,把它的词和词性都个我打出来。
jieba.load_userdict(file_name)
把自己的词典载入进来
例如,结巴,5(表示词频,可以省略),n(表示词频,可以省略)