Analysis和Analyzer区别
![在这里插入图片描述](https://img-blog.csdnimg.cn/55e1543bcace4cb19955776425c1af3b.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/0f79c01ed2af41359570c14b1a455b52.png)
Analyzer组成
![在这里插入图片描述](https://img-blog.csdnimg.cn/d039fb784aa24e4f95ac844249fbdff1.png)
内置分词器
![在这里插入图片描述](https://img-blog.csdnimg.cn/c523e48a95e04a7294146a08c83fd03c.png)
测试分词
- 直接指定analyzer测试
- 指定index字段进行测试
- 自定义分词器进行测试
![在这里插入图片描述](https://img-blog.csdnimg.cn/5cd38938d5444499910ac365e58b4a3b.png)
默认分词器
![在这里插入图片描述](https://img-blog.csdnimg.cn/aab3622e1b194678a3bb78c5f4e0377e.png)
中文分词
分词难点
- 中英文分词差距,英文一般自然空格;中文切分是一个个词,而不是字。
- 中文分词在不同上下文中,理解意思还不同。
![在这里插入图片描述](https://img-blog.csdnimg.cn/a917bb5693364460b3623237c6bfb14e.png)
中文分词发展: 基于字典的分词法, 基于统计法的机器学习算法分词
IUC 分词器
安装: elasticsearch-plugin install analysis-icu
提供unicode的支持,更好的支持亚洲语言。
![在这里插入图片描述](https://img-blog.csdnimg.cn/cbf1276387af42f8bdce616dea401145.png)
HanLP 分词器
![在这里插入图片描述](https://img-blog.csdnimg.cn/50dc26970acb42e7936df0c6cb9a67f8.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/219c8f703e6f48d3b261228b715a8a3a.png)
IK分词器
![在这里插入图片描述](https://img-blog.csdnimg.cn/c40358dc2d60440792cee1559499b866.png)
PinYin 分词器
![在这里插入图片描述](https://img-blog.csdnimg.cn/a9860fb56af549e49b8554f8b0ed96e8.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/dc0750e59cf94b4ba8fdc357c033f928.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/c9a74ed0742047e19a6538d29047166d.png)