Analysis和Analyzer区别
Analyzer组成
内置分词器
测试分词
- 直接指定analyzer测试
- 指定index字段进行测试
- 自定义分词器进行测试
默认分词器
中文分词
分词难点
- 中英文分词差距,英文一般自然空格;中文切分是一个个词,而不是字。
- 中文分词在不同上下文中,理解意思还不同。
中文分词发展: 基于字典的分词法, 基于统计法的机器学习算法分词
IUC 分词器
安装: elasticsearch-plugin install analysis-icu
提供unicode的支持,更好的支持亚洲语言。
HanLP 分词器
IK分词器
PinYin 分词器