使用jieba测试分词并且增加自定义字典

1、github下载源码

https://github.com/fxsjy/jieba
也可以直接用pip安装

pip install jieba

2、拷贝测试代码测试

稍微修改了下文件路径方面的代码,路径如下
在这里插入图片描述

import time
import sys
sys.path.append("../")
import jieba
jieba.initialize()

# 输入需要分词的文件路径
url = "test/data/zrbzdz.txt"
content = open(url,"r",encoding='utf-8-sig').read()
t1 = time.time()
words = "/ ".join(jieba.cut(content))

t2 = time.time()
tm_cost = t2-t1

# 输出分词后的文件路径
log_f = open("test/data/output/1.log","wb")
log_f.write(words.encode('utf-8'))
log_f.close()

print('cost ' + str(tm_cost))
print('speed %s bytes/second' % (len(content)/tm_cost))

这边测试了5万多条标准地名地址数据
在这里插入图片描述
速度还是挺快的,大概只要13秒
在这里插入图片描述

结果肯定有些地方是不如人意的,毕竟是地名地址数据,看这里就有问题了
在这里插入图片描述
下一步添加自定义字典

3、添加自定义字典

如果用单个添加,感觉不太方便,用load_userdict方法添加,如果数据量大的话,又太慢,所以直接添加到结巴分词自身词库"dict.txt"当中。
github源码路径在这里
在这里插入图片描述
python安装路径在这里
在这里插入图片描述

(1)、打开把自己的字典添加进去就行,注意格式

词 词频 词性
我这边词频和词性大概写的

福基岗村 3 n

(2)、添加后保存

(3)、删除jieba.cache

每次执行脚本,会提示加载的jieba.cache路径,我们先把它删除
在这里插入图片描述

(4)、重新执行脚本

脚本没变,结果变了,说明我们自定义的字典起作用了,有其它词数据可以一直加进去
在这里插入图片描述

jieba字典可以在其GitHub仓库中下载。jieba是一个支持中文分词Python库,它支持三种分词模式:精确模式、全模式和搜索引擎模式。你可以根据自己的需求选择使用其中一种模式进行分词。此外,jieba还支持自定义词典,并且可以用于统计词频等操作。 要下载jieba字典,你可以前往jieba的GitHub仓库地址,从中下载所需的字典文件。如果你还没有安装jieba库,可以使用命令行输入"pip install jieba"进行自动安装。 在下载jieba字典后,你可以使用jieba库的相关函数来进行分词和处理文本。例如,可以使用jieba.lcut函数对文本进行精确分词,并使用统计方法来计算词频。你可以根据词频来分析文本中各个词语的出现频次。 希望这个回答对你有帮助。如果你还有其他问题,请随时提问。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [少年街霸图标下载](https://download.csdn.net/download/weixin_38724611/13774363)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [python学习笔记之利用jieba库进行词频分析](https://blog.csdn.net/plasma007/article/details/102642723)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GIS从业者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值