中文分词技术(二)
前面介绍几种基本常用的中文分词技术,下面我们介绍一个中文分词的工具。
Jieba
安装与介绍
- 介绍
- 结合了基于规则和基于统计两种方法;
- 是一个开源框架,提供了许多在分词之上的算法;
- 安装
pip install jieba
Jieba的三种分词模式
- 精确模式:将句子精准切分,适合文本分析
jieba.cut(sentence,cut_all=False)
- 全模式:将句子中所有可能成词的词语扫描出来,无法解决歧义
jieba.cut(sentence,cut_all=True)
- 搜索引擎模式:在精确模式基础上对长词再此切分,提高召回率
jieba.cut_for_search(sentence)
高频词提取
- 高频词:指文档中出现频率较高且非无用的词语。
- 高频词提取就是自然语言处理中的TF策略
- 主要干扰项:
- 标点符号:一般标点符号无任何价值
- 停用词:诸如“的、是、了”等无任何价值
- 代码实现
###数据读取###
def get_content(path):
with open(path,'r',encoding='gbk',errors='ignore') as f:
content= ''
for l in f:
l=l.split()
content += str(l