一、jieba分词

import jieba
content='番薯,是旋花科虎掌藤属多年生草质藤本植物,具有乳汁。块根为白、红或黄色;茎生不定根'

1、cut方法

# jieba.cut返回的是一个生成器对象,需要用list方法转换
# cut_all默认为False,如果为True,则是全模式分词
list(jieba.cut(content, cut_all=False))

2、lcut方法

# 使用lcut会直接返回列表而不是生成器对象
jieba.lcut(content, cut_all=True)

3、cut_for_search

# 搜索引擎模式分词
# 在精确模式的基础上。对长词再次切分,提高召回率,适合用于搜索引擎分词
jieba.lcut_for_search(content)

4、使用用户自定义的词典

'''txt:userdict.txt

        八一双鹿

'''

# 使用用户自定义词典
# 添加自定义词典之后,jieba能准确识别词典中出现的词汇,提升整体的识别准确率
# 词典格式:每一行分三部分:词语 词频 词性,用空格隔开,顺序不可以颠倒
# 例如:云计算 5 n
jieba.lcut('八一双鹿更名为八一南昌篮球队!')
jieba.load_userdict('./userdict.txt')
jieba.lcut('八一双鹿更名为八一南昌篮球队!')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值