Python与自然语言处理——中文分词(二)

本文详细介绍了Python的中文分词库Jieba,包括安装、三种分词模式(精确模式、全模式、搜索引擎模式)以及如何进行高频词提取。通过示例展示了Jieba在新闻数据上的分词效果,并提供了数据和代码资源链接。
摘要由CSDN通过智能技术生成

中文分词技术(二)

前面介绍几种基本常用的中文分词技术,下面我们介绍一个中文分词的工具。

Jieba

安装与介绍
  • 介绍
    • 结合了基于规则和基于统计两种方法;
    • 是一个开源框架,提供了许多在分词之上的算法;
  • 安装

pip install jieba


Jieba的三种分词模式
  • 精确模式:将句子精准切分,适合文本分析

jieba.cut(sentence,cut_all=False)


  • 全模式:将句子中所有可能成词的词语扫描出来,无法解决歧义

jieba.cut(sentence,cut_all=True)


  • 搜索引擎模式:在精确模式基础上对长词再此切分,提高召回率

jieba.cut_for_search(sentence)


高频词提取
  • 高频词:指文档中出现频率较高且非无用的词语。
  • 高频词提取就是自然语言处理中的TF策略
  • 主要干扰项:
    • 标点符号:一般标点符号无任何价值
    • 停用词:诸如“的、是、了”等无任何价值
  • 代码实现
###数据读取###
def get_content(path):
    with open(path,'r',encoding='gbk',errors='ignore') as f:
        content= ''
        for l in f:
            l=l.split()
            content += str(l
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值