spacy分词器

最新推荐文章于 2024-06-04 17:52:45 发布

xiaoxiaoqian0519

最新推荐文章于 2024-06-04 17:52:45 发布

阅读量2.3k

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/xiaoxiaoqian0519/article/details/111667027

版权

spacy中文分词器

spacy分词器介绍

spacy分词器介绍

spacy使用的中文jieba分词器，接下来对这个分词器进行简单介绍。

分词算法介绍

结巴中文分词涉及到的算法包括：
(1) 基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)；
(2) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；
(3) 对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

分词模式介绍

三种分词模式

精确模式：试图将句子中最精确地切开，适合文本分析；
全模式：把句子中所有可能成词的词语都扫描出来，速度很快，但是不能解决歧义的问题；
搜索引擎模式：在精确模式的基础上，对场次再次切分，提高召回率；

import jieba
text = "我是一只小可爱，我喜欢喝汽水"
print("all search")
print(jieba.lcut(text,cut_all=True))
或者：
print([i for i in jieba.cut(text,cut_all=True)])

print("accurate search")
print(jieba.lcut(text,cut_all=False))
或者：
print([i for i in jieba.cut(text,cut_all=False)])

print("search_for_engineer

最低0.47元/天解锁文章

xiaoxiaoqian0519

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spacy分词器

spacy中文分词器spacy分词器介绍分词算法介绍分词模式介绍三种分词模式自定义词典关键词提取spacy分词器介绍spacy使用的中文jieba分词器，接下来对这个分词器进行简单介绍。分词算法介绍结巴中文分词涉及到的算法包括：(1) 基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)；(2) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；(3) 对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。分词模式
复制链接

扫一扫