因项目需要,使用到了Hanlp中文分词,该分词工具分词效果挺好,这里对于分词效果不展开赘述。虽然官方自带的分词词典可以满足大部分的日常分词需求,但是对于某些特殊需求就显得比较吃力,这里就需要用到自定义词典分词。
因为我是Maven管理jar包的项目,而自定义词典分词需要将自定义的词典加入下载好的词典包data文件夹下,因此直接用maven引入jar包则无法实现自定义分词(因为即便开启了”用户词典“,仍然是动态加载的官方词典库),所以这里需要自己手动将hanlp的jar放入项目中,流程如下:
1. 点击File->Project Structure->Modules
注:这里只需要Hanlp-1.7.2.jar就行。然后点击”OK“!
也可在项目中看到刚刚手动导入的jar包:
至此,Maven管理jar包的项目手动导入jar包已成功完成(完成本步骤后切记不可再在pom.xml文件中引入Hanlp的依赖,否则刚刚导入的jar包会不起作用)。
接下来将下载好的 hanlp.properties文件复制在项目resources目录下(最好放在resources目录下,否则可能会出现加载不到该配置文件的问题,本人踩坑!!!)
只需修改hanlp.properties文件内的 root="刚刚下载好的data文件夹的上一级目录" 即可,这里data可以放在其他地方,也可一同放在resources目录下,我的项目是将data文件夹放在了resources目录下,所以下方我的root=""修改如下:(如果是放其他地方,一定要将路径写准确)
然后在代码中”开启用户词典“
然后将自定义的词典my_dict.txt放在该位置:
然后修改hanlp.properties文件
注:分号”;“后空一格代表与前边的文件在同一路径下,因为其他的词典没用到,我这里没有配置其他的词典
自定义的词典格式:自定义的名称 词性 频次如图所示:
运行效果(未加入词典时:)
运行效果(加入词典时:)
注:若自定义词典不生效,可以先将如下文件删除,再运行即可
至此,完结!!!