自然语言处理------分词

本文介绍了jieba分词库在Python中处理中文文本的主要功能,包括精确模式、全模式和搜索引擎模式的分词,以及如何加载自定义词典。jieba分词支持繁体分词和自定义词典,对于自然语言处理和信息检索任务非常有用。
摘要由CSDN通过智能技术生成

分词的作用

分词是自然语音处理中极其重要的一部分

主要作用就是将文本切分开

最常用的分词方法就是python的jieba分词

Python2.X

pip install jieba

Python3.X

pip install jieba3k
  • 支持三种分词模式:

    • 精确模式,试图将句子最精确地切开,适合文本分析;

    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • 支持繁体分词

  • 支持自定义词典

    import jieba
    
    seg_list = list(jieba.cut("我来到北京清华大学", cut_all=False))
    print("精准模式: " + "/ ".join(seg_list))  # 精确模式
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
    print("全模式: " + "/ ".join(seg_list))  # 全模式
    
    seg_list = jieba.cut_for_search("我来到北京清华大学")  # 搜索引擎模式
    print(", ".join(seg_list))
    
    seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
    print(", ".join(seg_list))
    

    导入自定义词典

    import jieba
    import jieba.posseg as pseg
    jieba.load_userdict("da.txt")#读取自己修改的词,词频,词性
    words = pseg.cut("恢复默认停靠状态")#开始分词
    
    for w in words:
        if(w.flag in ('v' 'n' 'ns')):
            print('%s %s' % (w.word, w.flag))#分词的词语及词性
    
    words1 = pseg.cut("打开地图")
    for x in words1:
        if(x.flag in ('v' 'n' 'ns')):
            print('%s %s' % (x.word, x.flag))

    jieba.load_userdict(" ")

  • da.txt在该py文件相同目录下

  • 内容为

  • 恢复 9999999999 ns
    默认停靠状态 4 n
    打开 99999999 n
    地图 999999 n
  • 以词语,词频,词性的形式进行存储
  • 以替换jieba本身的词库
  • lcut只在jieba中可以使用,在jieba3k中不可以使用
  • 用cut可以完成分词的任务
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值