elasticsearch 拼音分词(elasticsearch-analysis-pinyin)


elasticsearch 拼音分词(elasticsearch-analysis-pinyin)

 

官网:https://github.com/medcl/elasticsearch-analysis-pinyin

 

 

*****************************

安装pinyin分词

 

进入容器,在线安装

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v7.5.1/elasticsearch-analysis-pinyin-7.5.1.zip

 

查看分词插件

      

 

 

*****************************

pinyin分词介绍

 

pinyin插件提供

analyzer:pinyin

tokenizer:pinyin

token-filter:pinyin

 

**********************

相关参数

 

keep_first_letter:默认为true,刘德华==》ldh

keep_separate_first_letter:默认为false,刘德华==》l、d、h

limit_first_letter_length:限制first_letter的长度,默认为16

keep_none_chinese_in_first_letter:首字母中保存非中文,默认为true,刘德华2020==》ldh2020

 

keep_full_pinyin:默认为true,刘德华==》[liu、de、hua]

keep_joined_full_pinyin:默认为false,刘德华==》liudehua

keep_none_chinese:保存非中文字符,默认为true

keep_none_chinese_together:非中文字符在一起,默认为true,DJ音乐家==》[DJ、yin、yue、jia]

 

none_chinese_pinyin_tokenize:非中文分词,默认为true,liudehua==》liu、de、hua,需先开启keep_none_chinese、keep_none_chinese_together

 

keep_original:保存原始文本,默认为false

lowercase:非中文字符小写,默认为true

trim_whitespace:空白字符分隔,默认为true

remove_duplicated_term:移除重复的分词,默认为true,de的==》de

ignore_pinyin_offset:忽略拼音的偏移量,默认为true

 

 

*****************************

测试pinyin分词

 

        

 

        

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值