Python与自然语言处理——中文分词（二）

最新推荐文章于 2024-08-26 07:45:00 发布

你的名字5686

最新推荐文章于 2024-08-26 07:45:00 发布

阅读量2.3k

点赞数 1

分类专栏： Python与自然语言处理

本文链接：https://blog.csdn.net/wk19951125/article/details/88894373

版权

本文详细介绍了Python的中文分词库Jieba，包括安装、三种分词模式（精确模式、全模式、搜索引擎模式）以及如何进行高频词提取。通过示例展示了Jieba在新闻数据上的分词效果，并提供了数据和代码资源链接。

摘要由CSDN通过智能技术生成

中文分词技术（二）

前面介绍几种基本常用的中文分词技术，下面我们介绍一个中文分词的工具。

Jieba

安装与介绍

介绍
- 结合了基于规则和基于统计两种方法；
- 是一个开源框架，提供了许多在分词之上的算法；
安装

pip install jieba

Jieba的三种分词模式

精确模式：将句子精准切分，适合文本分析

jieba.cut(sentence,cut_all=False)

全模式：将句子中所有可能成词的词语扫描出来，无法解决歧义

jieba.cut(sentence,cut_all=True)

搜索引擎模式：在精确模式基础上对长词再此切分，提高召回率

jieba.cut_for_search(sentence)

高频词提取

高频词：指文档中出现频率较高且非无用的词语。
高频词提取就是自然语言处理中的TF策略
主要干扰项：
- 标点符号：一般标点符号无任何价值
- 停用词：诸如“的、是、了”等无任何价值
代码实现

###数据读取###
def get_content(path):
    with open(path,'r',encoding='gbk',errors='ignore') as f:
        content= ''
        for l in f:
            l=l.split()
            content += str(l

最低0.47元/天解锁文章

你的名字5686

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录