Lucene/Solr
文章平均质量分 95
Lucene/Solr分享
破晓初
喜欢文本,喜欢搜索,喜欢你。
展开
-
企业级搜索引擎Solr再次焕发青春
今天非常高兴地向大家宣布一个消息,TIS2.0经过一年多时间的代码开发,终于将开发分支代码合并到了主干上分支上。他是一款基于SOLR的具有高性能、高可靠、高扩展性的企业级、一站式搜索中台产品,利用TIS可快速为您构建企业级搜索服务。想通过这篇博客向大家简要地介绍TIS的前世今生,如果可以对各位日常工作中构建企业搜索应用有所帮助,那真是不胜荣幸。TIS功能特性离线数仓负责索引实例全量数据构建,将关系数据库中的ER实体按照要求打平成为一张宽表导入搜索引擎(这部分底层可以TIS的插件机制方便地切换各种成熟原创 2020-10-29 01:48:03 · 388 阅读 · 1 评论 -
Lucene Search流程之二
介绍Lucene的Search流程,从查询发起到文档的收集的所有步骤全在文中。从索引应用的角度进一步巩固Lucene索引构建流程,做到知其然也知其所以然。流程之外,还介绍了Lucene如果实现布尔检索模型,以及应用。原创 2019-02-28 20:28:06 · 993 阅读 · 0 评论 -
Lucene Search流程之一
你知道搜索过程如何读取TermsDict,如何实现近似查询的吗?TermQuery与SpanQuery查询有什么不一样吗?先回顾倒排索引两大结构,讲述Lucene搜索流程中如何通过TermsDict获取到Postings所在的位置信息,以及每种方式是如何工作的且服务哪些查询类型。此外简述了读取不同的Postings信息,对应的查询类型。原创 2019-01-16 18:50:55 · 1517 阅读 · 0 评论 -
Lucene8.0新特征 DocValues改进
Lucene8.0新特征预告,继续优化DocValues,提升DocValues随机访问的性能。进一步讨论IndexedDISI的实现细节,以及如何服务DocValues。原创 2018-12-25 13:28:33 · 3503 阅读 · 4 评论 -
Lucene DocValues索引文件详解
解密DocValues索引的存储结构,为何正向索引能给搜索结果再处理带来更多可能性和不一样的体验。由哪里结构完成存储需求,相对FieldCache又有哪些优点?原创 2018-11-29 14:37:55 · 3512 阅读 · 2 评论 -
Solr/SolrCloud Faceting细节三则
FacetComponent提供了Faceting功能,你了解Faceting吗?你知道facet.overrequest.count和facet.overrequest.ratio这两个参数吗?你知道Faceting总是带自QueryComponent的结果集吗原创 2018-10-30 16:28:53 · 1049 阅读 · 1 评论 -
Lucene's MergePolicy
Lucene’s MergePolicyLucene很多特征,在我看来跟LSM-Tree的数据库非常相似,甚至很多问题的解决方式都如出一辙。这里我想跟大家来聊聊Lucene的Segment合并问题,这个问题同样发生LSM-Tree数据库(HBase)。我们知道我们每次冲刷索引时,Lucene都会生成一个Segment。类似就是每个MemStore的冲刷势必会产生一个HFile的道理是一样一...原创 2018-03-23 16:58:33 · 1224 阅读 · 3 评论 -
Solr 迟到的Payloads
是什么让索引时Boost汗颜退场,又是什么是让Payloads在Solr6.6开始名声大噪,走进Solr6.6 新特性之一,Payloads Query了解她的前世今生,她的沉沉浮浮。PayloadsQuery为我们带来哪些不一样查询和文档组织方式呢,也许你看完了之后就不需要频频groupby了;也许你读完之后就不需要Nested Document了;也许你会用到的,却是没有想到过的佳境。原创 2017-10-23 22:28:09 · 2424 阅读 · 0 评论 -
Solr/Lucene MMapDirectory的小细节
由于MMapDirectory引发的血案,在比较实时的SoftCommitTracker下,IO居高不下。本文可以让更加了解commitTracker以及DirectoryFactory。原创 2016-07-08 12:05:42 · 1962 阅读 · 0 评论 -
Solr/SolrCloud SolrConfigHandler详解
SolrConfigHandler用来更新solrconfig.xml配置的Handler,她用来获取配置信息,和编辑配置信息。原创 2016-07-09 22:02:51 · 1520 阅读 · 2 评论 -
Solr/SolrCloud 莫名出现了CompoundFile
你是不是也发现了在 useCompoundFile = false 情况下,还不要脸的出现了 .cfs、.cfe 呢?然后,你觉得十分莫名,为什么出现这种情况。进而思考如何让Solr听你的话,不再出现 .cfs、.cfe 是吗?如果有一个是,那请一定要看看本博文,看之后你一定会有结论的。原创 2016-06-17 22:08:09 · 1024 阅读 · 0 评论 -
Lucene TFIDFSimilarity评分公式详解
TFIDFSimilarity曾经是Lucene/Solr默认评分公式,想知道Lucene的评分过程就得先了解Lucene的评分公式,接下来将深刻剖析公式每个部分推导过程以及它的含义。原创 2017-02-26 17:34:41 · 3821 阅读 · 0 评论 -
Lucene DocValues详解
DocValues,人称正向索引,也是大家所认识的面向列存储。即通过文档编号与字段值在索引建立直接映射的关系,并存储。对DocValues我想你并不陌生,但我相信你对它并不算熟悉。接下来,我们将具体来看看它的存储结构、字段类型、以及使用场景等。原创 2017-03-07 00:10:39 · 10542 阅读 · 0 评论 -
Solr查询语言 JSON Request API
JSON Request API是一套优雅高效查询语法,尤其在搜索统计方面带全新的体验,既简洁又漂亮。绝对是一次非常美好的体验。原创 2017-06-13 14:51:32 · 2677 阅读 · 0 评论 -
Solr搜索统计 JSON Faceting API
如果你一直用在Solr,并打算使用Solr来做一些统计分析的话,接下来的内容你会非常感兴趣。solr 5.3的时候完全重写了Solr查询语法,其中最为重要的就是重写Solr Facet查询语法。她就是我们今天的主角,JSON Facet API是一种全新的搜索查询语法,针对Facet+Stats这种统计查询。她更加贴近SQL,更加贴近某搜索引擎。原创 2017-06-26 03:40:46 · 2816 阅读 · 4 评论 -
Lucene倒排索引简述 细说倒排索引构建
设计合适的数据结构对影响提升至关,在特定的场景使用的合适的结构是成功的基石,Lucene采用哪些数据结构解决构建索引的性能呢?本文将带你领略Lucene数据结构之美。原创 2018-11-13 23:39:42 · 10877 阅读 · 5 评论 -
Lucene倒排索引简述 番外篇
Lucene构建索引是一个非常复杂的过程,需要经过多道工序才能完成。那你知道Lucene在索引构建过程有哪些工序吗?又是整体流程是怎么样的呢?原创 2018-10-30 19:18:27 · 1467 阅读 · 4 评论 -
Lucene倒排索引简述 之倒排表
文章目录前言Postings编码VIntBlockPackedBlockPostings文件结构说明Frequencies And Skip Data(.doc文件)TermFreqs -- FrequenciesMulti-level SkipList -- SkipDataPostitions(.pos文件)Payloads and Offsets(.pay文件)总结前言上一篇《Lucen...原创 2018-10-09 20:31:55 · 7014 阅读 · 0 评论 -
Lucene倒排索引简述 之索引表
Lucene倒排索引的核心内容,索引表,你对这部分真的熟悉了吗?那你知道FST用什么地方吗?FST又存储了什么内容呢?有什么功能呢?关于Burst-Trie,你知道Lucene是如何采用它的思想来加速Lucene搜索性能的吗?原创 2018-09-27 09:57:42 · 4150 阅读 · 5 评论