收索引擎开发(1)

老早就想做个收索引擎了,苦于学业太重,没时间做,现在学校的课程也没了,开始完成我的收索引擎了,吼~~~
网上找了些资料,总算搞明白了什么是收索引擎,原来很复杂,很复杂,但我会坚持。。。

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。元搜索引擎 (META Search Engine)在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。[color=red]我是要做的是全文搜索引擎,继续。。。[/color]
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。[color=red]看来还得找个“蜘蛛”(Spider)程序找资源,继续。。。[/color]

在网上找了很久,感觉Heritrix这个还蛮多人用的,决定用这个了。先得把它跑通吧,在SourceForge把它下载下来了,研究了下下,发现它可以在命令行下启动,也可以放在Eclipse里启动,那我当然选择在Eclipse里了,还能看源码,不错,照着网上的例子一步一步下来,终于成功,在JOB文件夹下看到了我要“爬”的网站资料。。。又用它试了几个网站,发现一个问题,同意的Heritrix配置,有时候能爬到数据,有时候就爬不到,难道有些网站还防“抓取”了,随便也“抓”了下javaeye,结果只“抓”到了个主页和几个图片,不懂了。。。有哪位大哥知道,请告诉一下小弟,谢谢!今天就到这,下次继续。。。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值