搜索
文章平均质量分 68
vince_zw
这个作者很懒,什么都没留下…
展开
-
一种拼音分词器的JAVA实现
搜索中的分词器有很多种,包括中文、英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一 个分词器,原理很简单,就是模式匹配。根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母 集,分词的过程就是遍历匹配的过程。具体代码如下: import java.util.ArrayList; public cl原创 2014-12-02 18:46:13 · 3101 阅读 · 0 评论 -
如何选择Solr的布署方案
对于应用规模不大的,不建议采用solrcloud,传统的主从方式更容易维护和使用,对于数据规模较大的应用,建议采用solrcloud的部署方式,solrcloud是HA的架构,高可用性,有点类似于MongoDB的分片架构,采用的Zookeeper作为协调管理器,对于Zookeeper参见我之前的文章中的介绍。 常用传统的主从部署方式如图: 这种部署是我们生产是常用的,但有许多功原创 2015-07-27 21:51:48 · 744 阅读 · 0 评论 -
Python写的Web spider(网络爬虫)
Python写的Web spider: # web spider # author vince 2015/7/29 import urllib2 import re # get href content pattern = '<a(?:\\s+.+?)*?\\s+href=\"([h]{1}[^\"]*?)\"' t = set("") # collection of url def原创 2015-07-29 19:19:19 · 1591 阅读 · 0 评论