自然语言处理------分词

最新推荐文章于 2023-04-24 16:12:35 发布

加菲帆帆

最新推荐文章于 2023-04-24 16:12:35 发布

阅读量301

点赞数 1

文章标签：自然语言处理 python 机器学习

本文链接：https://blog.csdn.net/weixin_43869208/article/details/120060433

版权

本文介绍了jieba分词库在Python中处理中文文本的主要功能，包括精确模式、全模式和搜索引擎模式的分词，以及如何加载自定义词典。jieba分词支持繁体分词和自定义词典，对于自然语言处理和信息检索任务非常有用。

摘要由CSDN通过智能技术生成

分词的作用

分词是自然语音处理中极其重要的一部分

主要作用就是将文本切分开

最常用的分词方法就是python的jieba分词

Python2.X

pip install jieba

Python3.X

pip install jieba3k

支持三种分词模式：
- 精确模式，试图将句子最精确地切开，适合文本分析；
- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
支持繁体分词

支持自定义词典

import jieba

seg_list = list(jieba.cut("我来到北京清华大学", cut_all=False))
print("精准模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut_for_search("我来到北京清华大学")  # 搜索引擎模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

导入自定义词典

import jieba
import jieba.posseg as pseg
jieba.load_userdict("da.txt")#读取自己修改的词，词频，词性
words = pseg.cut("恢复默认停靠状态")#开始分词

for w in words:
    if(w.flag in ('v' 'n' 'ns')):
        print('%s %s' % (w.word, w.flag))#分词的词语及词性

words1 = pseg.cut("打开地图")
for x in words1:
    if(x.flag in ('v' 'n' 'ns')):
        print('%s %s' % (x.word, x.flag))

jieba.load_userdict(" ")

da.txt在该py文件相同目录下
内容为

恢复 9999999999 ns
默认停靠状态 4 n
打开 99999999 n
地图 999999 n

以词语，词频，词性的形式进行存储
以替换jieba本身的词库
lcut只在jieba中可以使用，在jieba3k中不可以使用
用cut可以完成分词的任务

加菲帆帆

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理------分词

分词的作用分词是自然语音处理中极其重要的一部分主要作用就是将文本切分开最常用的分词方法就是python的jieba分词Python2.Xpip install jiebaPython3.Xpip install jieba3k 支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提
复制链接

扫一扫