学习《自己动手写搜索引擎》日志
文章平均质量分 77
goobycle
努力吧,2011~~~
展开
-
提取文档中的文本内容(使用PDFBox处理PDF文档)
由于本节内容与“跟不上时代潮流”的博客里的一篇文章非常类似。在这里谨转载一下。今天看了内容后很是激动,动手编了一下,把电脑里所有的pdf转了一遍,发现用adobe自带的工具转更方便,虽然pdfbox更快一些。粘一下sourceforge里对pdfbox的描述:PDFBox is原创 2011-07-22 17:18:43 · 3083 阅读 · 6 评论 -
Lucene Similarity (Lucene 文档评分score机制详解
转自:http://hi.baidu.com/lewutian/blog/item/3a60a2faad97c912a8d3111a.html文档的分值代表了该文档在特定查询词下对应的相关性高低,他关联着信息检索向量空间模型中的向量夹角的接近度。一个文档越与查询词相关,得转载 2011-08-05 15:16:10 · 657 阅读 · 0 评论 -
Lucene检索结果的排序问题、boost(激励因子)
转自:http://www.cnblogs.com/lvpei/articles/1732474.html关于Lucene检索结果的排序问题。已经知道,Lucene的默认排序是按照Document的得分进行排序的。当检索结果集中的两个Document的具有相同的得转载 2011-08-04 20:46:17 · 1164 阅读 · 0 评论 -
BooleanClause.Occur[]数组
BooleanClause.Occur[]数组表示多个条件之间的关系。其中, BooleanClause.Occur.MUSTandBooleanClause.Occur.MUST_NOTnotBooleanClause.Oc原创 2011-08-04 20:43:43 · 2340 阅读 · 0 评论 -
lucene下载与安装
转自:http://blog.csdn.net/shupan001/article/details/5918161下载下载链接:http://apache.mirror.phpchina.com/lucene/java/以选择lucene-2.0.0.zip下载为例。转载 2011-07-30 09:17:57 · 605 阅读 · 0 评论 -
9款PDF加密和解密工具
转自:http://paranimage.com/9-pdf-encryption-and-decryption-tools/A-PDF Restrictions Remover让你可以立刻移除PDF文档的密码以及各种限制,它不是一个密码恢复工具,因为在您移除文档转载 2011-07-30 11:06:23 · 3962 阅读 · 1 评论 -
体验WIN7中自带的虚拟机软件-WINDOW VIRTU
转自:http://d1.it168.com/show/29829.html 微软公司总是会在操作系统内集成越来越多的应用软件,虽然这会招致许多应用厂商的反对,但是对于我等D版粉丝来说,总是好事。我的笔记本升级到WIN7后,竟然惊喜的发现,WIN7下只要到网转载 2011-07-30 15:58:48 · 1439 阅读 · 0 评论 -
lucene中的Token, TokenStream, Tokenizer, Analyzer
转自:http://ybzshizds.iteye.com/blog/562794Token: 如果一个字段被token化,这表示它经过了一个可将内容转化为tokens串的分析程序。 Token是建立索引的基本单位,表示每个被编入索引的字符。 在token化的过程中,分析程序会在转载 2011-07-28 11:15:36 · 888 阅读 · 0 评论 -
使用隐马尔科夫模型Viterbi算法解决词性标注问题
中文的有些单词对应多个词性,所以给词标注词性是需要研究的问题。解决此问题的一个方法是从单词的所有可能的词性中选出其最常用的词性作为这个词的词性,也就是一个概率最大的词性。隐马尔可夫模型同时考虑到了次的生成概率与词性之间的转移概率,所以能够提高词性的准确率。 隐马尔可原创 2011-07-26 10:58:16 · 3185 阅读 · 0 评论 -
Lucene中Token类的positionIncrement字段
转自:http://hi.baidu.com/lewutian 这个字段决定当前token相对于上一个token的位置(当前token的位置就是上一个token位置的值与positionIncrement的值的和),它的作用主要体现在短语查询(phrase se转载 2011-08-05 11:11:43 · 484 阅读 · 0 评论