自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 O(1)空间 的归并排序

目录一、 原始的归并排序二、 一种新的merge方法2.1 不变性2.1.1 区域划分2.1.2 有序性2.2 初始化2.3 迭代2.3.1 T[c]最小2.3.2 T[b]最小2.3.3 T[a]最小2.3.4 A区消失和C区消失2.3.5 为什么T[a]最小时,B区一定不存在 ?三、代码实现四、时间复杂度分析一、 原始的归并排序归并排序的主算法:public void mergeSort(int[] T, int low, int high) { if (high - low < 2

2020-10-30 12:19:33 1533

原创 中文分词方法在英文纠错中的一种应用

在运营反馈的搜索问题中,有很多搜索无结果的case是因为用户没有输入空格:例如:无结果有结果xiaomiredmi5xiaomi redmi 5huaweimediapadhuawei mediapadebikee bikesolidrubbertiresolid rubber tire目前线上解决这类问题的方式是配置同义词,需要人工干预,且...

2019-08-14 21:05:58 375

原创 Elasticsearch中的MatchQuery

MatchQueryMatchQuery是Elasticsearch中一种比较复杂的Query,在查询时会先被改写成一些低级Query的组合。TermQuery、SynonymQuery、BooleanQuery、PhraseQuery简介// TODOMatchQuery改写流程MatchQuery改写流程的入口: org.elasticsearch.index.search.Matc...

2019-03-16 17:03:00 7944

原创 Lucene中的同义词

Lucene中的同义词Lucene的TokenFilter中,有SynonymFilter和SynonymGraphFilter两种来处理同义词。SynonymFilter不能很好的处理多词同义词,已经被弃用,建议使用SynonymGraphFilterSynonymFilter 和 SynonymGraphFilter的比较假设有如下文本:fast wi fi network is d...

2019-03-16 16:50:28 1524 6

原创 Lucene分词基本概念

Lucene分词基本概念Lucene接收纯文本,分词之后写入索引。分词就是将一段文本拆分成多个词(Token),并产生与每个词相关联的一些属性(Attribute)的过程。TokenStream、PositionIncrement和PositionLengthLucene用TokenStream来表示分词的结果。一般情况下,TokenStream可以看做是一个顺序的Token流。例如,有...

2019-03-16 15:52:21 778

原创 Lucene FST

Lucene FST1. FST简介FST, 全称Finite State Transducer, 中文翻译: 有限状态转换器或有限状态传感器。FST最重要的功能是可以实现Key到Value的映射,相当于HashMap&amp;amp;lt;Key,Value&amp;amp;gt;。FST的内存消耗要比HashMap少很多,但FST的查询速度比HashMap要慢。FST在Lucene中被大量使用,例如:倒排索引的存储,...

2019-03-16 11:20:03 7036 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除