- 博客(15)
- 资源 (21)
- 收藏
- 关注
转载 coreseek 分布式索引 与 单索引
单索引 配置文件(分表)12345678910111213141516171819202122232425262728293031323334353637383940414243444546
2016-06-27 10:37:22 633
转载 实时的分布式sphinx索引配置及使用方法总结
实时的分布式sphinx索引配置及使用方法总结coreseek文档:http://sphinxsearch.com/wiki/doku.php?id=sphinx_manual_chinese#需要的工具需要更改/usr/local/coreseek/var/data 下的目录权限安装开始: cd /data/softwore wget http://www.coreseek.cn/
2016-06-27 10:26:16 4309
转载 sphinx 源码阅读之json, hash table配置分析器
前言读了 sphinx 的读取配置文件的代码, 心中有一个疑问: sphinx 为什么要自己造轮子呢?难道现在 sphinx 一直没人升级维护也是这个历史包袱的原因吗?不管哪么多了,先来看看 sphinx 怎么分析配置文件以及储存配置文件的吧。配置文件规则下面是一个简单的还有增量索引的 sphinx 配置文件。其中 inc_source 继承 base_source 源。
2016-06-26 17:04:18 705
转载 coreseek 安装记录
前言前几天我写了 sphinx 的安装记录, 今天再来记录一下 coreseek 的安装记录。如果你只想使用简单的全文检索的话,请参考 Sphinx 安装记录。如果你已经安装 sphinx 或者 coreseek, 只是想查找怎么配置和使用 sphinx 和 coreseek 的话,请参考 coreeek 和 sphinx 的配置与使用.关于 coreseek在
2016-06-26 17:00:09 997
转载 Sphinx 安装记录
前言如果你想支持中文全文检索的话,请参考 coreseek 安装记录。如果你已经安装 sphinx 或者 coreseek, 只是想查找怎么配置和使用 sphinx 和 coreseek 的话,请参考 coreeek 和 sphinx 的配置与使用下面的表纯属文章虚构,由于配置内容较多,部分省略,具体可以参考官方文档。想吐槽一句:编译安装真浪费时间, configure &
2016-06-26 16:59:26 5255
转载 coreeek 和 sphinx 的配置与使用
前言关于 sphinx 的安装请参考 Sphinx 安装记录.关于 coreeek 的安装请参考 coreseek 安装记录.sphinx 和 coreeek 安装好后,是可以搜索出满意的结果了,凡是有一个问题:对于新增的数据,我们需要在 sphinx 中重建索引。又由于旧的数据量是很大的,所以重建索引是很费时间的,所有如果数据不需要实时同步,那么每天晚上定时重建一下就行了
2016-06-26 16:58:07 633
转载 sphinx 源码阅读之数据结构与算法
源码在 sphinx 官网上就可以下载到.起初我下载的是最新版本,结果由于代码大约有 10W 行,我看了快 1W 行后发现这样看也不是个办法。于是我想着生成一个项目关系图来阅读代码,但是我这电脑只有windows, 网上介绍的大多都是 linux 上的,于是我只好取消这个念头。后来,我想我看sphinx源码主要是先弄明白 sphinx 的工作原理,而工作原理应该一直都是保持不变的,
2016-06-26 16:55:53 906
转载 sphinx 源码阅读之 分词,压缩索引,倒排
前言sphinx 在创建索引前需要做下面几件事:有数据源(pSource),有分词器(pTokenizer),有停止词Stopword 和 字典(pDict),索引引擎。我们假设 数据源是 mysql, 分词器是 utf8 分词器。索引前背景介绍第一步是准备数据源。这里采用 mysql 数据源。mysql 数据的特点是一行一个记录。每个记录有相同的字段。每个字段可能
2016-06-26 15:18:02 669
转载 Coreseek算法分析
Coreseek算法分析本文对coreseek代码中涉及到的一部分算法进行说明,以便在阅读代码的时候,能更容易理解相关的代码。本文所整理的只是其中的部分算法,后面将在逐渐深入理解的基础上,进一步添加。一.Soundex 算法1. 算法原理Soundex是一种语音算法,利用英文字的读音计算近似值,值由四个字符构成,第一个字符为英文字母,后三个为数字。在拼音文字中有时会有会念但不能拼出
2016-06-26 14:07:38 857
转载 Sphinx源码分析——Indexer
Sphinx作为一款优秀的全文检索开源软件确实是很不错,最近工作需要,要求在其上进行二次开发,第一次接触这样一款开源软件,兴奋和紧张心情难免,作为一个刚毕业的应届生,看了一周的源代码,现在奉上一篇博文来对其Indexer部分代码进行分析,共各位及自己做一个参考,其中只代表个人的一些粗浅看法,如果不对,请各位大神一定要指正,这样才能提高,谢谢! Indexer作为Sphinx的重要组成部分之
2016-06-26 11:25:10 2421
转载 Coreseek:中英文混合分词
coreseek是针对中文搜索引擎在sphinx搜索引擎上添加了中文分词功能中文分词使用的是Chih-Hao Tsai的MMSEG算法提供了分词字典,同义词及特殊词的扩展该文主要针对分词字典的扩展,默认数据中只针对中文词语进行分词,但一些行业用词需要涉及到中英混词的分词效果,针对该特性则需要修改源码来实现开启英文字符查找源码修改:针对mmseg-3.2.14版本Src/css/se
2016-06-25 17:12:28 3877
转载 分布式监控工具Ganglia 介绍 与 集群部署.
如果你目的很明确就是冲着标题来的,不爱看我唠叨,请直接进入第二个分割线之后的内容。 其实之前就是有做Swift监控平台的打算的,但是因为没什么硬性需求么,也不要紧的,就一直搁置了。最近实验室来了个大二升大三的小MM体验生活,老大就让我们带着她一起做这个东西,主要好处就是可以多学些实用的技术,了解云存储的基本架构,同时也不需要深入细节,难以理解。好吧,我就是个爱说废话和铺陈的妞,这样才体
2016-06-08 10:51:32 2525
转载 Ganglia安装
本文主要介绍Ganglia部署过程、使用过程中遇到的问题和解决办法,以及实际使用的效果。1. 工欲善其事,必先利其器!前段时间在定位项目性能问题时,苦于难以评价系统各参数以及使用情况对性能的影响,调研了一下集群监测系统,发现了一个监测集群系统运行状态的利器:ganglia。Ganglia是UC Berkeley发起的一个开源集群监视项目,其核心包含gmond、gmetad以及一个Web
2016-06-07 13:43:34 2877
转载 Linux之Ganglia源码安装
一、Ganglia简介: Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率、 I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。二、Gangl
2016-06-07 13:42:35 1244
转载 ubuntu上安装mysql
ubuntu上安装mysql非常简单只需要几条命令就可以完成。 1. sudo apt-get install mysql-server 2. apt-get isntall mysql-client 3. sudo apt-get install libmysqlclient-dev 安装过程中会提示设置密码什么的,注意设置了不要忘了,安装完成
2016-06-06 14:20:21 439
wireshark-gm-wireshark
2018-07-25
windows程序设计(第五版)附代码
2018-03-29
source3.x支持utf-8插件
2016-12-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人