- 博客(6)
- 收藏
- 关注
原创 O(1)空间 的归并排序
目录一、 原始的归并排序二、 一种新的merge方法2.1 不变性2.1.1 区域划分2.1.2 有序性2.2 初始化2.3 迭代2.3.1 T[c]最小2.3.2 T[b]最小2.3.3 T[a]最小2.3.4 A区消失和C区消失2.3.5 为什么T[a]最小时,B区一定不存在 ?三、代码实现四、时间复杂度分析一、 原始的归并排序归并排序的主算法:public void mergeSort(int[] T, int low, int high) { if (high - low < 2
2020-10-30 12:19:33 1620
原创 中文分词方法在英文纠错中的一种应用
在运营反馈的搜索问题中,有很多搜索无结果的case是因为用户没有输入空格:例如:无结果有结果xiaomiredmi5xiaomi redmi 5huaweimediapadhuawei mediapadebikee bikesolidrubbertiresolid rubber tire目前线上解决这类问题的方式是配置同义词,需要人工干预,且...
2019-08-14 21:05:58 379
原创 Elasticsearch中的MatchQuery
MatchQueryMatchQuery是Elasticsearch中一种比较复杂的Query,在查询时会先被改写成一些低级Query的组合。TermQuery、SynonymQuery、BooleanQuery、PhraseQuery简介// TODOMatchQuery改写流程MatchQuery改写流程的入口: org.elasticsearch.index.search.Matc...
2019-03-16 17:03:00 7952
原创 Lucene中的同义词
Lucene中的同义词Lucene的TokenFilter中,有SynonymFilter和SynonymGraphFilter两种来处理同义词。SynonymFilter不能很好的处理多词同义词,已经被弃用,建议使用SynonymGraphFilterSynonymFilter 和 SynonymGraphFilter的比较假设有如下文本:fast wi fi network is d...
2019-03-16 16:50:28 1530 6
原创 Lucene分词基本概念
Lucene分词基本概念Lucene接收纯文本,分词之后写入索引。分词就是将一段文本拆分成多个词(Token),并产生与每个词相关联的一些属性(Attribute)的过程。TokenStream、PositionIncrement和PositionLengthLucene用TokenStream来表示分词的结果。一般情况下,TokenStream可以看做是一个顺序的Token流。例如,有...
2019-03-16 15:52:21 784
原创 Lucene FST
Lucene FST1. FST简介FST, 全称Finite State Transducer, 中文翻译: 有限状态转换器或有限状态传感器。FST最重要的功能是可以实现Key到Value的映射,相当于HashMap&amp;lt;Key,Value&amp;gt;。FST的内存消耗要比HashMap少很多,但FST的查询速度比HashMap要慢。FST在Lucene中被大量使用,例如:倒排索引的存储,...
2019-03-16 11:20:03 7099 8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人