zouxiang_1993-CSDN博客

原创 O(1)空间的归并排序

目录一、原始的归并排序二、一种新的merge方法2.1 不变性2.1.1 区域划分2.1.2 有序性2.2 初始化2.3 迭代2.3.1 T[c]最小2.3.2 T[b]最小2.3.3 T[a]最小2.3.4 A区消失和C区消失2.3.5 为什么T[a]最小时，B区一定不存在 ?三、代码实现四、时间复杂度分析一、原始的归并排序归并排序的主算法:public void mergeSort(int[] T, int low, int high) { if (high - low < 2

2020-10-30 12:19:33 1620

原创中文分词方法在英文纠错中的一种应用

在运营反馈的搜索问题中，有很多搜索无结果的case是因为用户没有输入空格:例如：无结果有结果xiaomiredmi5xiaomi redmi 5huaweimediapadhuawei mediapadebikee bikesolidrubbertiresolid rubber tire目前线上解决这类问题的方式是配置同义词，需要人工干预，且...

2019-08-14 21:05:58 379

原创 Elasticsearch中的MatchQuery

MatchQueryMatchQuery是Elasticsearch中一种比较复杂的Query，在查询时会先被改写成一些低级Query的组合。TermQuery、SynonymQuery、BooleanQuery、PhraseQuery简介// TODOMatchQuery改写流程MatchQuery改写流程的入口: org.elasticsearch.index.search.Matc...

2019-03-16 17:03:00 7952

原创 Lucene中的同义词

Lucene中的同义词Lucene的TokenFilter中，有SynonymFilter和SynonymGraphFilter两种来处理同义词。SynonymFilter不能很好的处理多词同义词，已经被弃用，建议使用SynonymGraphFilterSynonymFilter 和 SynonymGraphFilter的比较假设有如下文本：fast wi fi network is d...

2019-03-16 16:50:28 1530 6

原创 Lucene分词基本概念

Lucene分词基本概念Lucene接收纯文本，分词之后写入索引。分词就是将一段文本拆分成多个词(Token)，并产生与每个词相关联的一些属性(Attribute)的过程。TokenStream、PositionIncrement和PositionLengthLucene用TokenStream来表示分词的结果。一般情况下，TokenStream可以看做是一个顺序的Token流。例如，有...

2019-03-16 15:52:21 784

原创 Lucene FST

Lucene FST1. FST简介FST, 全称Finite State Transducer, 中文翻译: 有限状态转换器或有限状态传感器。FST最重要的功能是可以实现Key到Value的映射，相当于HashMap&amp;lt;Key,Value&amp;gt;。FST的内存消耗要比HashMap少很多，但FST的查询速度比HashMap要慢。FST在Lucene中被大量使用，例如：倒排索引的存储，...

2019-03-16 11:20:03 7099 8

zx的博客

原创 O(1)空间的归并排序

原创中文分词方法在英文纠错中的一种应用

原创 Elasticsearch中的MatchQuery

原创 Lucene中的同义词

原创 Lucene分词基本概念

原创 Lucene FST

空空如也

空空如也

原创 O(1)空间 的归并排序

原创 中文分词方法在英文纠错中的一种应用

原创 Elasticsearch中的MatchQuery

原创 Lucene中的同义词

原创 Lucene分词基本概念

原创 Lucene FST

空空如也

空空如也

原创 O(1)空间的归并排序

原创中文分词方法在英文纠错中的一种应用