搜索
聪明的狐狸
北漂8年,来自河北,仍在一线编程。喜欢Coding,享受编程的乐趣,擅长C/C,Python,对Linux系统开发,网络编程,服务器开发有浓厚的兴趣
展开
-
拆解Clucene 系列(2)——Clucene的几个专业术语
lucene用到一些概念和术语原创 2016-08-11 15:00:14 · 1419 阅读 · 0 评论 -
中文分词的一点研究
在中文分词中,歧义性分词是一个难点,其中如下一类分词,比较具有代表性,如果能把这类句子能够正确切分,相信能很好地提高分词效果。原句:沿海南方向逃跑分词a:沿海x 南方x 向x 逃跑x分词b:沿x 海南x 方向x 逃跑x原句:购买网球鞋分词a:购买x 网球x 鞋x分词b:购买x 网x 球鞋x原句:中国有石油分词a:中国x 有x 石油x分词b:中x 国有x原创 2016-09-04 17:56:10 · 710 阅读 · 0 评论 -
拆解Cluene系列(12)——创建索引生成的文件格式和内容
一个Seg生成的索引文件有如下几个:索引文件都是以seg做为文件名,只是扩展名不一样 这些索引文件可以分成如下几类: - xxx.fnm - xxx.fdt和xxx.fdx - xxx.frq和xxx.prx - xxx.tii和xxx.tis - xxx.tvd,xxx.tvf,xxx.tvx - xxx.f0,xxx.f1,xxx.f2… 这些文件都是二进制文件,本文不会原创 2016-08-19 15:09:59 · 1259 阅读 · 0 评论 -
拆解Cluene系列(9)——建立索引用到的类关系
Cluene建立索引时使用到许多类,本文展示了主要类之间的关系。原创 2016-08-12 14:37:41 · 572 阅读 · 0 评论 -
拆解Cluene系列(7)——Cluene用到的虚继承
Cluene用到虚继承的地方有两个类,其类图关系如下:原创 2016-08-12 14:21:31 · 474 阅读 · 0 评论 -
拆解Cluene系列(6)——Analyzer的职责链模式
Clucene用到的设计模式:职责链模式原创 2016-08-12 10:14:37 · 489 阅读 · 0 评论 -
拆解Cluene系列(5)——Analyzers中的类图
Clucene中Analyzers的类图关系原创 2016-08-11 17:06:28 · 529 阅读 · 0 评论 -
拆解Cluene系列(4)——store中的类图
Lucene中Store 的类图,用到了抽象工厂模式。原创 2016-08-11 16:24:54 · 729 阅读 · 0 评论 -
拆解Clucene系列(3)——Clucene的代码组织结构
Clucene的代码组织结构原创 2016-08-11 15:59:46 · 1495 阅读 · 0 评论 -
IK Analyzer 类图关系
IK Analyzer的类图关系原创 2016-09-01 15:45:08 · 528 阅读 · 0 评论 -
中文分词比较困难的句子
中文分词比较困难,有挑战的短语和句子原创 2016-08-29 14:07:07 · 4585 阅读 · 1 评论 -
拆解Cluene系列(14)——搜索时序图
Lucene在检索Term的时序图原创 2016-08-19 17:32:27 · 1632 阅读 · 0 评论 -
拆解Cluene系列(13)——Query和weight类图
Lucene中的Query,weight,scorer三者的UML类图原创 2016-08-19 17:27:03 · 647 阅读 · 0 评论 -
拆解Cluene系列(11)——索引的合并(二)
Lucene中合并Term和倒排表的原理和代码注释原创 2016-08-19 11:01:22 · 477 阅读 · 0 评论 -
拆解Cluene系列(10)——详解索引的合并(一)
lucene中索引的合并,SegmentMerge原创 2016-08-16 16:49:59 · 739 阅读 · 0 评论 -
拆解Cluene系列(22)——Query的再解释
在Lucene中的许多Query,都需要进行翻译,最终翻译成一个个简单的sub Query,本文是对翻译算法的解释和介绍。原创 2016-08-28 10:32:12 · 715 阅读 · 1 评论 -
拆解Cluene系列(8)——建立索引的流程
Clucene建立索引的流程图原创 2016-08-12 15:01:44 · 954 阅读 · 2 评论 -
拆解Clucene 系列(1)---Clucene的特点和难点
Clucence的特点和难点原创 2016-08-11 14:27:45 · 2882 阅读 · 0 评论