搜索引擎
文章平均质量分 94
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
通过设置SolrInputDocument 的boost来改变文档评分
solr通过关键字查询后的文档得分最后要乘以这个boost因子,boost默认为1.0f 我们可以通过更新文档的boost从而来影响文档的得分,从而影响结果的排序。public class SolrClientUpdateDemo { public static final String SOLR_URL = "http://localhost:8088/solr-src/core原创 2012-08-14 09:38:00 · 2940 阅读 · 0 评论 -
使用朴素贝叶斯算法,通过用户安装的APP列表来推测用户的性别
转自http://blog.csdn.net/cnweike/article/details/47167411目录(?)[+]从本质上来说,这是一个分类问题,类似于通过邮件内容来推测垃圾邮件,通过用户的相关信息来推测用户是否会拖欠贷款,而通过用户的APP安装列表来推测用户的性别也是一个类似的问题。对于贝叶斯算法来说,我们首先需要一个训练集数据,这个训练集转载 2016-03-16 18:17:46 · 2437 阅读 · 0 评论 -
有关ansj的IndexAnalysis的分词对elasticsearch的fast vector highlight高亮会产生BUG的问题分析
IndexAnalysis是ansj分词工具针对搜索引擎提供的一种分词方式,会进行最细粒度的分词,例如下面这句话:看热闹:2014年度足坛主教练收入榜公布,温格是真·阿森纳代言人啊~这句话会被拆分成:[看热闹/v, :/w, 2014/m, 年度/n, 足坛/n, 主教练/n, 收入/n, 榜/n, 公布/v, ,/w, 温格/nr, 是/v, 真/d, ·/w, 阿森纳/nr原创 2016-01-14 11:19:10 · 2236 阅读 · 0 评论 -
中国自然语言处理开源组织https://github.com/NLPchina
中国自然语言处理开源组织:https://github.com/NLPchinamark一个,最近在用word2vec原创 2015-12-18 12:02:50 · 5530 阅读 · 2 评论 -
cloudera search1.0.0环境搭建(2):利用flume-ng的MorphlineSolrSink实现近实时(NRT)搜索
要实现近实时搜索,就必须有一种机制来实时的处理shuj原创 2014-11-03 16:24:24 · 5180 阅读 · 0 评论 -
cloudera search1.0.0环境搭建(1):搭建solrcloud
本文基于Cloudera Manager5.0.0安装的各个服务,如原创 2014-10-28 14:41:28 · 6077 阅读 · 1 评论 -
solr 导入csv文件
今天想用DIH导入csv文件,于是数据源用FileDataSource+自定义转换器粗略实现了一下package com.besttone.transformer;import java.util.Map;public class CsvTransformer { // 参考资料 http://wiki.apache.org/solr/DIHCustomTransf原创 2013-07-19 15:40:48 · 3918 阅读 · 0 评论 -
solr 自定义分词器
今天需要将一个以逗号分隔的字段建立到索引库中去,没找到有现成的逗号分隔符分词器,于是看了看源码里空格分词器WhitespaceTokenizerFactory的写法。照葫芦画瓢写了一个逗号分词器:package com.besttone.analyzer;import java.io.Reader;import java.util.Map;import org.apache.s原创 2013-05-08 18:49:41 · 2913 阅读 · 2 评论 -
SolrCloud 译文以及一些使用注意细节
This command starts up a Solr server and bootstraps a new solr cluster. cd examplejava -Dbootstrap_confdir=./solr/collection1/conf -Dcollection.configName=myconf -DzkRun -DnumShards=2 -jar start.j原创 2013-04-22 09:22:16 · 1508 阅读 · 0 评论 -
Solr分布式搜索技术实现分析
原文出处:http://www.cnblogs.com/gpcuster/archive/2012/10/10/2718341.html概述Solr单机支持的搜索数据量是有一定上限的,这个取决于搜索的复杂程度,服务器的硬件配置与业务的要求等等,所以将搜索功能分布化将是对于大数据搜索的一个必然趋势。Solr从1.3版本开始,自带了分布式搜索(Distributed Search)。这个功转载 2013-04-09 13:29:36 · 3607 阅读 · 0 评论 -
Solr 空间搜索配置
Solr 空间搜索配置 1. 在solr目录下的找到conf文件夹下的schema.xml. 在fields元素中添加如下代码 --> 2. 在solr原创 2012-11-13 15:48:18 · 9037 阅读 · 0 评论 -
solr dataimort 多个entity注意点
多个entity,每个entity有各自的last_index_time,可以通过dataimporter.entityname.last_index_time来取各自的最后更新时间来进行增量更新。多个entity时,进行full-import时指明导入某个entity,http://localhost:8088/solr-platform/zbs-core/dataimport?entity原创 2012-09-19 18:50:03 · 9513 阅读 · 3 评论 -
solr 通过URL的方式删除索引
Solr 删除全部索引:*:*&stream.contentType=text/xml;charset=utf-8&commit=true">http://localhost:8080/solr/update/?stream.body=*:*&stream.contentType=text/xml;charset=utf-8&commit=truesolr 删除指定ID的索引:*:*&stre原创 2012-09-19 18:28:05 · 18864 阅读 · 2 评论 -
solr faceted search
Faceted Search with SolrPosted by yonikFaceted search has become a critical feature for enhancing findability and the user search experience for all types of search applications. In this转载 2012-08-27 22:31:22 · 2181 阅读 · 0 评论 -
solr null排序问题
今天碰到一个按人均消费排序的问题,人均消费avg_cost是可以为null的,导致从小到大排序的时候为null 的doc会排在前面。这不是我想要的结果,我想优先显示有值的按从小到大排序,然后为null的始终排在最后面,不管是升序还是降序。后面想出一个解决方案,多加了一个field用来排序,叫是否有人均消费 has_cost,人均消费为null时,has_cost=0否则为1.这样先按has_c原创 2012-09-05 17:23:54 · 2012 阅读 · 0 评论 -
jquery autocomplete实现solr查询字段自动填充并执行查询
页面引入三个JS: 引入JQUERY UI的CSS文件$(function() { function log( message ) { $( "" ).text( message ).prependTo( "#log" ); $( "#log" ).scrollTop( 0 ); } //http://localhost:8088/s原创 2012-08-24 16:39:20 · 6331 阅读 · 2 评论 -
solr dataimport 命令
所有命令如下 public static final String FULL_IMPORT_CMD = "full-import"; public static final String IMPORT_CMD = "import"; public static final String DELTA_IMPORT_CMD = "delta-import"; public st原创 2012-08-30 13:40:23 · 1433 阅读 · 0 评论 -
solr 创建日期索引字段和日期查询
首先创建一个JAVABEAN映射SCHEMA中的fieldpublic class DemoModel { @Field public String id; @Field public String type; @Field public String name; @Field public String createtime;} schem原创 2012-08-14 13:46:52 · 26784 阅读 · 2 评论 -
给索引添加ttl属性自动过期删除
首先需要将索引的ttl属性打开,默认是关闭的PUT /music/song/_mapping { "song" : { "_ttl" : { "enabled" : true } }}也可以设置默认ttl时间:PUT /music/song/_mapping { "song" : { "_ttl" : { "en原创 2016-03-17 16:55:42 · 12768 阅读 · 1 评论