import jieba
content='番薯,是旋花科虎掌藤属多年生草质藤本植物,具有乳汁。块根为白、红或黄色;茎生不定根'
1、cut方法
# jieba.cut返回的是一个生成器对象,需要用list方法转换
# cut_all默认为False,如果为True,则是全模式分词
list(jieba.cut(content, cut_all=False))
2、lcut方法
# 使用lcut会直接返回列表而不是生成器对象
jieba.lcut(content, cut_all=True)
3、cut_for_search
# 搜索引擎模式分词
# 在精确模式的基础上。对长词再次切分,提高召回率,适合用于搜索引擎分词
jieba.lcut_for_search(content)
4、使用用户自定义的词典
'''txt:userdict.txt
八一双鹿
'''
# 使用用户自定义词典
# 添加自定义词典之后,jieba能准确识别词典中出现的词汇,提升整体的识别准确率
# 词典格式:每一行分三部分:词语 词频 词性,用空格隔开,顺序不可以颠倒
# 例如:云计算 5 n
jieba.lcut('八一双鹿更名为八一南昌篮球队!')
jieba.load_userdict('./userdict.txt')
jieba.lcut('八一双鹿更名为八一南昌篮球队!')