Springboot项目整合jieba分词,实现语句最精确的切分

Springboot项目整合jieba分词,实现语句最精确的切分

1.引入相关依赖

查看远程Maven仓库

在这里插入图片描述

本人使用版本:jieba-analysis-1.0.3-SNAPSHOT.jar(可百度自行下载)

在这里插入图片描述
将Jar包打到自己的Maven仓库:

mvn install:install-file -DgroupId=com.kd.database  -DartifactId=DM6 -Dversion=1.0 -Dfile=D:\桌面\DmJdbcDriver.jar -Dpackaging=jar -DgeneratePom=true

-DgroupId=设置maven的groupId(中央仓库文件存放的地址,E:\mavenrepository\com\kd\database)
-DartifactId=设置maven的artifactId(Jar包所在的文件夹名称)
-Dversion=版本号(1.0-Dfile=你需要打入仓库的jar包地址.jar(D:\桌面\DmJdbcDriver.jar)

在这里插入图片描述
在这里插入图片描述
开始引入依赖:

<dependency>
    <groupId>com.kd.huaban</groupId>
    <artifactId>jieba-analysis</artifactId>
    <version>1.0.3-SNAPSHOT</version>
</dependency>

2.核心代码

相关工具类(JieBaUtil.java)

package com.kd.opt.util;

import com.huaban.analysis.jieba.JiebaSegmenter;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.util.List;

/**
 * Springboot项目整合jieba分词,实现语句最精确的切分
 *
 * @author 小辰哥哥
 */

public class JieBaUtil {

    // 日志打印
    private static final Logger LOGGER = LoggerFactory.getLogger(JieBaUtil.class);

    // 初始化操作
    private static JiebaSegmenter segmenter = new JiebaSegmenter();

    /**
     * 获取分词内容
     *
     * @param words
     * @return
     * @author 小辰哥哥
     */
    public static List<String> getSignaleWord(String words) {

        // 匹配分词模板
        String[] sentences = new String[]{"/energe.dict.utf8"};
        segmenter.initUserDict(sentences);
        List<String> resultList = segmenter.sentenceProcess(words);
        return resultList;
    }

    public static void main(String[] args) {
        LOGGER.debug("分词集合:" + getSignaleWord("我爱你小辰哥哥"));
    }
}

分词模板(energe.dict.utf8,resources目录下面)

在这里插入图片描述

开始测试

分词模板为空的情况下(“小辰”与“哥哥”是分开的):
在这里插入图片描述
配置分词模板(“小辰哥哥”合并打印):
在这里插入图片描述
在这里插入图片描述


总结

每天一个提升小技巧!!!

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
要使用jieba分词库获得最佳效果,可以按照以下步骤进行: 1. 安装jieba库:使用pip命令安装jieba库,可以在命令行中输入以下命令进行安装: ``` pip install jieba ``` 2. 导入jieba库:在Python代码中导入jieba库,可以使用以下语句: ```python import jieba ``` 3. 加载自定义词典:jieba分词库提供了自定义词典的功能,可以根据需要加载自定义词典以提高分词效果。自定义词典可以包含领域特定的词汇或专有名词。加载自定义词典的方法如下: ```python jieba.load_userdict("custom_dict.txt") ``` 4. 分词操作:使用jieba库的`cut`函数进行分词操作。常用的分词函数有`cut`、`cut_for_search`和`lcut`。其中,`cut`函数返回一个生成器,可以通过遍历获取分词结果;`cut_for_search`函数适用于搜索引擎模式,会对长词进行切分;`lcut`函数返回一个列表,直接获取分词结果。示例代码如下: ```python text = "我喜欢使用jieba分词库" seg_list = jieba.cut(text) print("/".join(seg_list)) ``` 5. 添加停用词:jieba分词库提供了停用词功能,可以过滤掉一些常见的无意义词汇,如“的”、“是”等。可以通过以下方式添加停用词: ```python jieba.analyse.set_stop_words("stopwords.txt") ``` 6. 获取关键词:jieba分词库还提供了关键词提取的功能,可以根据文本内容提取出关键词。示例代码如下: ```python text = "我喜欢使用jieba分词库" keywords = jieba.analyse.extract_tags(text, topK=5) print(keywords) ``` 以上是使用jieba分词库获得最佳效果的基本步骤。根据具体需求,你还可以进一步调整参数和使用其他功能。希望对你有帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小辰哥哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值