搜索-Lucene-Solr-Sphinx
文章平均质量分 80
单向街的夏天
每天进步一点点
展开
-
Solr快速回顾2---SolrJ操作Solr API
目录(?)[-]首先你需要添加如下jar包其次建立一个简单的测试类完成Server对象的相关方法的测试工作代码如下Server的有关配置选项参数server是CommonsHttpSolrServer的实例利用SolrJ完成Index Document的添加操作利用SolrJ添加多个Document即添加文档集合添加JavaEntity Bean这个需要先创建一个JavaBean然后来完成原创 2013-05-22 19:59:20 · 1177 阅读 · 0 评论 -
Solr快速回顾3---配置文件schema.xml和solrconfig.xml分析
一、字段配置(schema)schema.xml位于solr/conf/目录下,类似于数据表配置文件,定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。name:就是这个Fi原创 2013-05-22 22:18:00 · 853 阅读 · 0 评论 -
sphinx 在windows 环境下安装与使用
一、关于SphinxSphinx 是一个在GPLv2 下发布的一个全文检索引擎,商业授权(例如, 嵌入到其他程序中)需要联系作者(Sphinxsearch.com)以获得商业授权。一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL原创 2012-11-29 21:35:13 · 1466 阅读 · 0 评论 -
如何确定中文字符串的相似度
摘要在数据挖掘的研究中,我们往往需要判断文章是否雷同,对类似文章或短句进行归类处理等,这其中就会遇到这样的问题:如何确定两个字符串之间的相似程度。本文综合作者的实际工作经验和数据挖掘理论,结合中文字符串特性介绍一套相对完整的方法,以解决上述问题.。 分析 最简单的问题求解 字符串由一组不同含义的单词组成,它不同于数值型变量,可以用一个特定的数值来确定它的转载 2013-04-27 22:21:40 · 4777 阅读 · 0 评论 -
网络爬虫基本原理
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程 一个通用的网络爬虫的框架如图所示: 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL; 2.将这些UR原创 2012-11-29 11:48:13 · 1493 阅读 · 0 评论 -
Solr快速回顾1---Solr使用指南
由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:基于Lucene自己进行封装实现站内搜索:工作量及扩展性都较大,不采用。调用Google、Baidu的API实现站内搜索:同第三方搜索引擎绑定太死,无法满足后期业务扩展需要,暂时不采用。基于Compass+Lucene实现站内搜索:适合于对数据库驱动的应转载 2013-05-22 19:33:28 · 1027 阅读 · 0 评论 -
搜索词纠错、相关搜索的原理与实现
相关搜索是检索功能的一个扩展,用来告诉用户自己输入查询词的情况。如果输入错了,可能会纠错提示用户:“想找的是不是” 。另外还会在显著位置提供与输入查询词相关的其他查询词,例如百度结果页下面的提示, 而对于电商网站这两个功能会合在一起,下面分别说说我对这两个任务的理解。一、纠错功能,英文叫做spellcheck,在英原创 2013-05-22 16:20:29 · 2330 阅读 · 0 评论 -
lucene简介
本文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包转载 2012-11-12 09:57:30 · 569 阅读 · 0 评论 -
Lucene学习总结(二):lucene的包结构和工作流程
Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。让我们更细一些看Lucene的各组件: 被索引的文档用Document对象表示。IndexWriter通过函数addDocument将文档添加到索引中,实现创建索引的过程。Lucene的索引是应用反向索引。当用户有请求时,Query代表用户的查询语句。IndexSearcher通过函数search搜索L转载 2013-04-16 22:08:49 · 1173 阅读 · 0 评论 -
Lucene学习总结(一):全文检索的工作流程
一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或转载 2013-04-16 22:02:52 · 1097 阅读 · 0 评论 -
Lucene分词实现---Analyzer、TokenStream(Token、Tokenizer、Tokenfilter)
一 分清概念: 1 TokenStream是用来走访Token的iterator(迭代器) , Tokenizer继承自TokenStream,其输入为Reader 。 TokenFilter继承自TokenStream,其作用是用来完成对TokenStream的过滤操作,譬如 去StopWords,将Token变为小原创 2013-04-16 13:59:32 · 2244 阅读 · 0 评论 -
自动补全(智能提示)原理与实现
自动补全,英文叫autocomplete,好像也叫智能提示,就是用户在输入框敲一个字符会弹出下拉列表提示候选词给用户,方便用户输入,提升用户体验。 网上多是JS如何实现,用ajax请求拿到数据就可以了,这里分享一下后台实现的一些思路。如果对性能和效果要求不高的话,可以直接在数据库中用like的方式去匹配候选词集合;或者在一个检索系统上也转载 2013-05-22 16:24:30 · 4109 阅读 · 0 评论 -
当爬虫被拒绝时(Access Denied)
1. 伪装user agent User agent 是HTTP协议的中的一个字段, 其作用是描述发出HTTP请求的终端的一些信息。 服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器,每个正规的爬虫都有其固定的user agent,因此只要将这个字段改为这些知名的user agent,就可以成功伪装了。不过,不推荐伪装知名爬虫,因为这些爬虫很可能有固定的IP,如百度转载 2013-03-06 19:15:17 · 2659 阅读 · 0 评论 -
分词常见算法-----小整理
1 单字分词 public static void tokennizer(String a){ for(int i=0;i System.out.prinltn(a.charAt[i]); } } 2 二元分词 public static void split(S原创 2013-05-25 22:16:38 · 1553 阅读 · 0 评论