搜索引擎(ELK/Lucene/Solr)
文章平均质量分 80
joeywen
努力做正确的事
展开
-
PageRank算法概述
读书报告,转载请标明出处http://blog.csdn.net/wzhg0508/article/details/9068849原创 2013-06-09 23:25:01 · 1304 阅读 · 0 评论 -
Elasticsearch custom analyzer with custom pattern(自定义Analyzer的分词pattern)
自己定义elastic search的analyzer的分词 pattern模式,可以对自己想要的存储的field进行自己定义的pattern进行tokenize 分词原创 2016-07-29 12:35:37 · 1665 阅读 · 0 评论 -
Logstash实践之MySQL Slowlog解析
Logstash实践之MySQL Slowlog解析原创 2016-01-31 23:36:24 · 3088 阅读 · 0 评论 -
Logstash 实践之Redis日志解析
Logstash 实践之Redis日志解析原创 2016-01-31 23:30:23 · 4831 阅读 · 0 评论 -
Logstash 实践之Spark Driver日志解析
Logstash 实践之Spark Driver日志解析原创 2016-01-31 23:27:26 · 2703 阅读 · 0 评论 -
logstash 学习小记
简单的介绍了logstash,给出一些简单实用的examples原创 2015-08-02 14:12:33 · 11620 阅读 · 0 评论 -
Lucene之BooleanClause Occur MUST和SHOULD组合测试
测试版本Lucene 2.9.4====================================lucene中BooleanQuery 实现与或的复合搜索 .BooleanClause用于表示布尔查询子句关系的类,包 括:BooleanClause.Occur.MUST,BooleanClause.Occur.MUST_NOT,BooleanClause.Occur.SHO原创 2013-09-05 09:36:34 · 9467 阅读 · 2 评论 -
关于Solr索引性能优化
如何能在有限的服务器资源上较好的使用Solr服务,性能调优是必不可少的。鉴于个人经验,给出几条可调优方法:1. 配置SolrConfig中的Directory, 不当的Directory会消耗大量的内存或IO资源,当索引规模变大时也很容易导致内存溢出,或索引维护的Map Failed现象!如何选择合适的Directory可参看《Lucene in Action》(第二版) Section2.1转载 2014-05-22 09:40:48 · 4552 阅读 · 0 评论 -
lucene/solr的缺点
http://iloseyou.iteye.com/blog/18465321、 http 请求做了cache,有时候会出现新数据不可见,cache滞后的问题。—cache优化下也不是问题 2、 admin 后台页面,支持中文、复杂查询语法上,欠友好。—自己稍加扩展也不是问题 3、swap core的时候,单结点多core,并且core对应的索引比较大的时候,切换过程出现内存2倍化转载 2013-11-19 16:30:36 · 2648 阅读 · 0 评论 -
Lucene之MaxScorer算法简介
简介 名叫“Lucene之MaxScorer算法分析”其实并不准确,因为有Stefan提交的MaxScorer代码尚未提交到Lucene,至今还在讨论中,具体见:https://issues.apache.org/jira/browse/LUCENE-4571,他索所要解决的问题就是Lucene在计算Top-k时效率慢的问题。目前Lucene对于MaxScore的计算,原创 2013-10-22 21:08:54 · 3561 阅读 · 0 评论 -
Lucene之MinShouldMatchScorer算法源码分析
在lucene中检索出来的文档用倒排列表来表示,每个query Term对应一个倒排列表。每个列表的长度则表示有多少篇文档含有该Term。那么在Lucene中大部分的查询都是Boolean查询(AND,OR,NOT),对于AND来说,直接对倒排列表求交集就可以了,由于倒排列表采用跳跃表结构,所以求交比较快,具体过程参见大牛觉先的blog(http://www.cnblogs.com/forfutu原创 2013-10-11 17:30:13 · 2573 阅读 · 3 评论 -
精确Top-K检索及其加速方法探讨
前言目标:从文档集的所有文档中找出K个离查询最近的文档(一般)步骤:对每个文档评分(余弦相似度),按照评分高低排序,选出前K个文档但是对于搜索引擎来说,文档集很大,所以计算量会很大,效率就很低如何加速:思路一:加速每个余弦相似度的计算思路二:不对所有的文档的评分结果排序而直接选出Top-K思路三:能否不需要计算所有N篇文档的得分加速余弦计算原创 2013-10-14 19:27:01 · 3176 阅读 · 0 评论 -
推荐算法之Slope One Java 及 PHP实现
这两个貌似都是原作者自己写的import java.util.*;/** * Daniel Lemire A simple implementation of the weighted slope one algorithm in * Java for item-based collaborative filtering. Assumes Java 1.5. * * See m转载 2013-08-14 10:08:53 · 2241 阅读 · 1 评论 -
Lucene Payload 的研究与应用
简介Payload (元数据) 诞生于 Lucene 的2.2 版本,它是在 Lucene 2.1 索引文件格式的基础上扩展而来,提供了一种可以灵活配置的高级索引技术,在某些特定应用场景下能优化基于 Lucene 构建的应用的搜索性能。本文重点研究了 Payload 的实现原理、索引结构的变化、接口 API ,在本文的最后举例说明了 Payload 是如何帮助改善搜索体验的。Luc转载 2013-07-18 10:06:21 · 865 阅读 · 0 评论 -
Solr之NamedList 简单介绍与实例解析
大家都知道,Solr是一个基于Lucene高可配置的搜索服务器,大部分参数值以及相关优化等等都可以在solrconfig.xml中配置,那么就需要一个能够很快的进行解析和读取配置文件内容的数据结构,为此Solr提供了NamedList结构。 NamedList,一个有序的name/value容器,NamedList不像Map,他具有以下特点: 1、名字可以重复原创 2013-07-16 09:44:01 · 2384 阅读 · 0 评论 -
solr 学习资料
转自solr一大堆学习资料这篇博客含有海量资料,学习solr必备字典 大概看完solr就基本上手了。 solr原味资料:http://wiki.apache.org/solr/FrontPage ( http://wiki.apache.org/solr/QueryParametersIndex http://wiki.apache.org/solr/S转载 2013-06-24 20:31:55 · 944 阅读 · 0 评论 -
eclipse里配置solr开发测试环境
Apache Solr是一个非常强大的软件包,你可以随时用它来构建自己的搜索引擎。Solr采用纯Java开发,用Lucene作为它的核心索引和查询。Solr可以运行在任何Servlet容器里,像Tomcat或Jetty。下面我将详细描述如何在Eclipse中配置Solr的开发测试环境。首先,你需要:1、 Eclipse IDE(http://www.eclipse.org) 3.5 or原创 2013-06-05 15:21:14 · 2341 阅读 · 1 评论 -
Elasticsearch 5.0 简介(medcl微信直播实录)
大家好,非常高兴能在这里给大家分享,感谢InfoQ提供的这个微信的平台,首先简单自我介绍一下,我叫曾勇,是Elastic的工程师。Elastic将在今年秋季的时候发布一个Elasticsearch V5.0的大版本,这次的微信分享将给大家介绍一下5.0版里面的一些新的特性和改进。5.0? 天啦噜,你是不是觉得版本跳的太快了。 好吧,先来说说背后的原因吧。 相信大家都听说ELK吧,是Elastic原创 2016-07-29 12:36:13 · 4128 阅读 · 0 评论