今天用结巴分词时遇到一个问题:
我想切分:
武汉市环境卫生管理局
直接切分的话生成的是:
武汉市,环境卫生,管理局
但我希望的是:
武汉市,环境,卫生,管理,局
这时有两种方法:
- 用suggest_freq方法:
jieba.suggest_freq(('管理','局'), True)
- 修改dict.txt:
直接修改jieba目录下的dict.txt文件,删掉相应的管理局,环境卫生等词语,删掉后,结巴分词不会立即生效,需要删掉jieba生成的cache文件,我的是在以下目录:
C:\Users\Administrator\AppData\Local\Temp
Ps: 不知道为什么,我前面删掉这个文件后运行脚本会报错,过了一会莫名其妙的又好了。
方法1的好处是可以用来临时调整下,不影响以后的分词,方法2可以一劳永逸解决问题,唯一要注意的是修改前记着备份下原文件。