通用与垂直搜索引擎探讨


一、搜索引擎的定位
 要做搜索引擎,那必定要明确自己的定位。如果想做像google、baidu这样的通用搜索引擎,那你必须摸摸自己的口袋了,以目前的市场来说,投入前期那钱是当柴一样烧的,不仅需要强有力的推广,还需要强大的软硬件设施支持。那另一种就是垂直搜索引擎,我们所说的垂直搜索引擎,是一个针对某一特定领域或某一特定需求提供的信息检索。其特点就是专业、精确,从而致力于某一特定领域信息的检索。垂直搜索引擎就是要做通用搜索引擎无法做到的事情,将其做精做专。
OK,有了很好的定位那么就可以着手开发了。
(使用Nutch可以快速地创建一个搜索引擎出来。)
二、相关技术
 这里就不说通用搜索引擎了,通用搜索引擎就是依靠强大的机组不断从互联网上抓取信息,依靠信息器,分词的准确性去追求市场。当然这只是个人肤浅的理解。垂直搜索引擎,相对通用搜索引擎来讲需要更专业的数据,不仅需要宠大,且需更要专业的信息,那如何做好数据分析就是首要任务。当然不可能依靠人工筛选,那么就必须得依赖于关键字过滤了。
1、分词
 Nutch,不用说因为老外开发的缘故,中文一直是头痛的事情,那么要做个好的搜索引擎,必须有好的分词程序。我前段时间接触Lucene全文检索时,在目前流行的分词程序上做了个比较,感觉IKAnalyzer更符合检索要求,当然对中文用户来说使用这个更能让搜索结果来得准确。创建索引时,使用二元分词或其他一些将关键字分得更细的为好,这样更有利于检索。
2、数据分析
 这个课题有点大了,我也没接触过这方面的研究,但是作为搜索引擎,这是个不能或缺的部分。特别是垂直搜索引擎,完全依赖于对数据的分析。比如你想做一个关于房产的搜索引擎,那么如何将来自互联网的各种信息转化成为你所需要的非常明确的信息,那的确是值得深入研究的课题。看了相关文章,Nutch默认的聚类是基于Java的开源Carrot2搜索结果聚合聚类引擎,Carrot2 可以自动的把自然的搜索结果归类(聚合聚类)到相应的语义类别中,(这要感谢第一个想到并做到开源的人,所以开源真好呀),关于他的算法我就不研究了,我已经不打算向技术再发展了,人老了,做不动了,留给年轻人吧。当然也希望做过此类数据分析的朋友们多发表这方面的经验、文献。
三、搜索引擎的前景
 垂直搜索引擎相比通用搜索引擎或许更具有发展价值,我始终认为,不管再过多少年,通用搜索引擎必须会被淘汰,说不定百度,谷歌要恶扁我,不过我坚信这是真理,通用搜索引擎最大的发展前景就是辅助查找专业搜索引擎URL,嘿嘿。打个比方,现在我们用google、百度搜索程序片段,当某日一个强大的程序片段搜索引擎问世时,试想你还愿意在通用搜索引擎那茫茫几百上千页的结果中搜索那零星几条可用数据吗?
 垂直搜索引擎需要获取的信息来自于某一特定领域,这样的检索结果必定大大提升效率。
1、价值
 目前互联网上搜索引擎还是相对较少的。可能由于他的发展的确是需要付出相当大的代价,不管是人力还是物力。要运营好一个有价值的搜索引擎,就需要在推广和研发上投入相对较多的精力。不过一个专业的、方便的搜索引擎一定会慢慢体现他的价值出来。不知哪位大虾说创建一个搜索引擎需要4年甚至更久的时间。而一般一个创业阶段的软件公司,没有强大的经济实力支持很难维持到他体现价值的时候。创业公司2年是一个生命周期,如果你挺不过,便倒下了。
2、发展前景
 我所说的垂直搜索引擎要替代通用搜索引擎还需要一段相当长的时间,毕竟互联网就发展了10多年。我想作为一个使用者,我更愿意使用专业性的搜索引擎,而不愿意在千万级杂七杂八的数据中查找。你呢?
那么发展前景我还需要详述吗?

 写完了回头看看,却像是在推崇垂直搜索引擎。呵呵,搜索引擎的发展之路还很大,随着互联网的不断发展,技术和思路肯定会层出不穷,所以有些人也不要因为看了我的文章后要重新规化项目,因为一个产品存在的价值并不一定在于前景,每个产品存在都有他本身的意义,不管你是面向通用搜索还是垂直搜索引擎,这条路,不好走,但还是要走出点性格来。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值