搜索引擎技术-Lucene
文章平均质量分 83
litengbin
这个作者很懒,什么都没留下…
展开
-
Lucene-入门
关于JDK版本 至少使用JDK8版本,请下载JDK8或者更高版本: 下载以及配置JDK环境 Lucene 概念 Lucene 这个开源项目,使得 Java开发人员可以很方便地得到像搜索引擎google baidu那样的搜索效果。 先运行,看到效果,再学习 老规矩,先下载右上角的可运行项目,配置运行起来,确认可用之后,再学习做了哪些步骤以达到这样的效果。运行TestLucene类,期望看到如图所...转载 2018-04-08 21:51:12 · 361 阅读 · 0 评论 -
Lucene-分词器
分词器概念 分词器指的是搜索引擎如何使用关键字进行匹配,如 入门 中的关键字:护眼带光源。 如果使用like,那么%护眼带光源%,匹配出来的结果就是要么全匹配,要不都不匹配。而使用分词器,就会把这个关键字分为 护眼,带,光源 3个关键字,这样就可以找到不同相关程度的结果了。 IKAnalyzer6.5.0.jar IKAnalyzer 这个分词器很久都没有维护了,也不支持Lucene7。 IKA...转载 2018-04-08 22:03:11 · 255 阅读 · 0 评论 -
Lucene-高亮显示
TestLucene 增加高亮显示 SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<span style='color:red'>", "</span>"); Highlighter highlighter = new Highlighter(simpleHTMLFor...转载 2018-04-08 22:07:46 · 540 阅读 · 0 评论 -
Lucene-14万条产品数据
14万条数据 在前面的 入门 里是用了10条记录来测试,实际情况肯定是不会只有10条记录了,所以为了模仿真实环境,花了很多精力,四处搜刮来了14万条天猫的产品数据,接下来我们就会把这14万条记录加入到 Lucene,然后观察搜索效果。 关于数据库 本来应该先把这14万条记录保存进数据库,然后再从数据库中取出来的,不过改成直接从文件里读取出来,然后转换为泛型是Product的集合的形式,相当于从数...转载 2018-04-08 22:39:09 · 368 阅读 · 0 评论 -
lucene-分页查询
两种方式 分页查询是很常见的需求,比如要查询第10页,每页10条数据。Lucene 分页通常来讲有两种方式:第一种是把100条数据查出来,然后取最后10条。 优点是快,缺点是对内存消耗大。第二种是把第90条查询出来,然后基于这一条,通过searchAfter方法查询10条数据。 优点是内存消耗小,缺点是比第一种更慢 第一种 private static ScoreDoc[] pageSearc...转载 2018-04-09 09:50:31 · 1001 阅读 · 0 评论 -
lucene-索引删除和更新
索引删除和更新 索引建立好了之后,还是需要维护的,比如新增,删除和维护。 新增就是建立索引的过程,这里就不表了,本教材主要讲索引的删除和更新。索引里的数据,其实就是一个一个的Document 对象,那么本文就是介绍如何删除和更新这些Documen对象。 先说没有删除前的情形 直接使用14万条数据 里的代码,不过使用不一样的查询语句。如图所示,通过关键字 “鞭" 可以查询到一条id是51173的数...转载 2018-04-09 10:08:06 · 941 阅读 · 0 评论 -
lucene-进一步学习
以上就是 Lucene的一些常用用法。 更丰富的内容,请进入 Lucene官网展开学习:https://lucene.apache.org/转载 2018-04-09 10:08:56 · 231 阅读 · 0 评论