Lucene
QuickPai
这个作者很懒,什么都没留下…
展开
-
关于中文分词-转载1_一个北京程序员
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某转载 2013-03-20 14:06:22 · 736 阅读 · 0 评论 -
中文分词-转载2_一个北京程序员
2、新词识别新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在转载 2013-03-20 14:08:27 · 838 阅读 · 0 评论 -
中文分词-转载3_一个北京程序员
三、程序 具体程序如下(程序中包含权重,插入次数等要素,目前的算法并没有利用这些.可以借此写出更有效的分词算法):ChineseWordUnit.cs //struct--(词语,权重)对1 public struct ChineseWordUnit2 {3 private string _word;4 private int _power;5 6 /**////转载 2013-03-20 14:09:39 · 1394 阅读 · 0 评论 -
Lucene学习资料--不间断更新
http://www.cnblogs.com/forfuture1978/category/300665.html原创 2013-03-20 16:09:18 · 543 阅读 · 0 评论 -
Lucene的工作原理
Lucene的概述: Lucene(发音为 ['lusen] )是一个非常优秀的开源的全文搜索引擎,我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度,现在已经是Apache的顶级项目,在国内,Lucene的应用也越来越多。Lucene的算法原理: Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算转载 2013-03-20 16:02:45 · 789 阅读 · 0 评论