Java集成结巴中文分词器、Springboot项目整合jieba分词,实现语句最精确的切分、自定义拆词

本文介绍了jieba分词器的使用,包括其工作原理,如何集成到项目中,以及如何通过修改dict.txt或新建文件实现自定义拆词。推荐在源码中修改dict.txt并重新打包。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、jieba介绍

jieba是一个分词器,可以实现智能拆词,最早是提供了python包,后来由花瓣(huaban)开发出了java版本。

源码:https://github.com/huaban/jieba-analysis

分词的模式

  • search 精准的切开,用于对用户查询词分词
  • index 对长词再切分,提高召回率

二、集成

1.引入相关依赖

<dependency>
   <groupId>com.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
    <version>1.0.2</version>
</dependency>

2.核心代码

public class Demo {
    public static void main(String[] args) {
        JiebaSegmenter js = new JiebaSegmenter();
        List<String> resultList = js.sentenceProcess("我爱中国"); //[我, 爱, 中国]
        System.out.println(resultList);
    }
}

在这里插入图片描述

三、原理

为什么jieba可以实现智能拆词?是否可以自己增加拆词呢?
jieba项目resource目录下有个dict.txt文件,里面维护了非常多的拆词,jieba就是根据这个文件进行拆词的。自己也可以在这个文件中添加自定义拆词,或者新建一个文件。

在这里插入图片描述

四、自定义拆词

4.1、方式一:在源码的dict.txt中修改然后重新打包(推荐)

我们可以把源码下载下来,然后修改dict.txt文件后重新打包,这种方式是比较推荐的。还有一种方式就是新建一个txt文件然后引用,但是新增文件会导致在两个地方维护了拆词,而且新增文件中的拆词有时候会跟jieba里的dict.txt冲突,导致影响其他拆词。

1.下载源码
https://github.com/huaban/jieba-analysis

2.修改dict.txt文件
dict.txt文件中是按照字母顺序排序的,每一行包括分词、词频、词性
在这里插入图片描述
3.测试
在这里插入图片描述
4.重新打包并引用
在这里插入图片描述

4.2、新建文件自定义拆词

resource目录下新增txt文件,通过initUserDict方法进行初始化
在这里插入图片描述

五、其他问题

  1. 新增或修改拆词后可能会导致其他拆词出现问题,所以有条件的最好都测试一下
### Jieba 分词工具 0.42.1 版本下载、安装与使用 #### 下载与安装 对于希望获取并安装特定版本 (如 0.42.1) 的开发者而言,可以通过 Python 包管理 pip 来完成这一操作。具体来说,在命令行环境中执行如下指令即可: ```bash pip install jieba==0.42.1 ``` 这条命令会自动从 PyPI 上拉取指定版本的包,并将其安装到当前环境之中[^1]。 如果遇到任何有关于安装的问题,比如即使显示已成功安装但仍无法正常使用的情况,则可以尝试手动复制所需的件夹至项目根目录下作为临时解决办法[^3]。 #### 使用方法概述 一旦完成了上述步骤之后,便可以在 Python 脚本里通过简单的语句来加载该库以及调用其核心功能——即对中文本进行高效而精准地分割处理。下面给出了一段基础示范代码用于展示如何利用巴来进行基本的切分工作: ```python import jieba text = "欢迎再次光临本店" seg_list = jieba.cut(text, cut_all=False) print("Default Mode:", "/ ".join(seg_list)) ``` 这段程序首先导入了必要的模块,接着定义了一个待分析字符串变量 `text` ,后运用默认模式(`cut_all=False`)对该串进行了切割并将果打印出来。 值得注意的是,除了标准配置外,此版本还允许用户自定义字典以适应更加复杂的应用场景需求;同时也提供了针对不同应用场景优化过的多种算法选项供选择[^2]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月天的尾巴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值