Maven管理jar包的springBoot项目使用Hanlp自定义词典分词

因项目需要,使用到了Hanlp中文分词,该分词工具分词效果挺好,这里对于分词效果不展开赘述。虽然官方自带的分词词典可以满足大部分的日常分词需求,但是对于某些特殊需求就显得比较吃力,这里就需要用到自定义词典分词。

因为我是Maven管理jar包的项目,而自定义词典分词需要将自定义的词典加入下载好的词典包data文件夹下,因此直接用maven引入jar包则无法实现自定义分词(因为即便开启了”用户词典“,仍然是动态加载的官方词典库),所以这里需要自己手动将hanlp的jar放入项目中,流程如下:

1. 点击File->Project Structure->Modules

注:这里只需要Hanlp-1.7.2.jar就行。然后点击”OK“!

也可在项目中看到刚刚手动导入的jar包:

 

至此,Maven管理jar包的项目手动导入jar包已成功完成(完成本步骤后切记不可再在pom.xml文件中引入Hanlp的依赖,否则刚刚导入的jar包会不起作用)。

接下来将下载好的 hanlp.properties文件复制在项目resources目录下(最好放在resources目录下,否则可能会出现加载不到该配置文件的问题,本人踩坑!!!) 

只需修改hanlp.properties文件内的 root="刚刚下载好的data文件夹的上一级目录"  即可,这里data可以放在其他地方,也可一同放在resources目录下,我的项目是将data文件夹放在了resources目录下,所以下方我的root=""修改如下:(如果是放其他地方,一定要将路径写准确)

然后在代码中”开启用户词典“

 

 然后将自定义的词典my_dict.txt放在该位置:

然后修改hanlp.properties文件

注:分号”;“后空一格代表与前边的文件在同一路径下,因为其他的词典没用到,我这里没有配置其他的词典

自定义的词典格式:自定义的名称  词性 频次如图所示:

 运行效果(未加入词典时:)

运行效果(加入词典时:)

 

注:若自定义词典不生效,可以先将如下文件删除,再运行即可

 

至此,完结!!! 

 

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值