Lucence底层原理浅析
Lucence底层原理浅析
Lucence简介
Lucence是全Java实现的,前几年实现了开源,性能较高,而且支持分词、各种查询(正则、模糊、前缀)、关键词高亮等。
Lucence整体步骤
生成文档—>建索引库—>解析查询—>检索并返回
(1)原始数据即待索引文件,经过Tokenizer进行分词处理,去掉停用词(如"a",“the”,“an”,“啊”,“了"等),英文单词还需要Stemming和lemmatization使词汇成为词根形式(如"cars"变为"car”,“drove"
原创
2020-07-21 15:23:39 ·
1147 阅读 ·
0 评论