ES 的Index(索引)相当于数据库
ES 的Type (类型) 相当于表
ES 的Document (文档) 相当于行(一行数据)
- ES内置默认的standard 分词器对中文很不友好,是单字切分的,所以我们使用了ik分词器,ik分词器有最小切分和最细度切分两种
- 分词器对内容进行预处理,比如过滤掉HTML标签等特殊符号,再进行分词,标准化(比如统一一个单词小写或者大写等)
- 用标准化规则对单词进行倒排索引,出现次数越多,相关度分数越高
- 可以使用springdata-elasticsearch 方便操作