收索引擎开发（1）

最新推荐文章于 2024-07-23 09:10:53 发布

zkl_1987

最新推荐文章于 2024-07-23 09:10:53 发布

阅读量114

点赞数

分类专栏： other 文章标签：搜索引擎全文检索 Eclipse 百度互联网

other 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

老早就想做个收索引擎了，苦于学业太重，没时间做，现在学校的课程也没了，开始完成我的收索引擎了，吼~~~
网上找了些资料，总算搞明白了什么是收索引擎，原来很复杂，很复杂，但我会坚持。。。

搜索引擎按其工作方式主要可分为三种，分别是全文搜索引擎（Full Text Search Engine）、目录索引类搜索引擎（Search Index/Directory）和元搜索引擎（Meta Search Engine）。
全文搜索引擎是名副其实的搜索引擎，国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等，国内著名的有百度（Baidu）。它们都是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户，因此他们是真正的搜索引擎。目录索引虽然有搜索功能，但在严格意义上算不上是真正的搜索引擎，仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词（Keywords）查询，仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project（DMOZ）、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。元搜索引擎 (META Search Engine)在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo。[color=red]我是要做的是全文搜索引擎，继续。。。[/color]
从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序（Indexer），俗称“蜘蛛”（Spider）程序或“机器人”（Robot）程序，并自建网页数据库，搜索结果直接从自身的数据库中调用，如上面提到的7家引擎；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如Lycos引擎。[color=red]看来还得找个“蜘蛛”（Spider）程序找资源，继续。。。[/color]

在网上找了很久，感觉Heritrix这个还蛮多人用的，决定用这个了。先得把它跑通吧，在SourceForge把它下载下来了，研究了下下，发现它可以在命令行下启动，也可以放在Eclipse里启动，那我当然选择在Eclipse里了，还能看源码，不错，照着网上的例子一步一步下来，终于成功，在JOB文件夹下看到了我要“爬”的网站资料。。。又用它试了几个网站，发现一个问题，同意的Heritrix配置，有时候能爬到数据，有时候就爬不到，难道有些网站还防“抓取”了，随便也“抓”了下javaeye，结果只“抓”到了个主页和几个图片，不懂了。。。有哪位大哥知道，请告诉一下小弟，谢谢！今天就到这，下次继续。。。

zkl_1987

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
收索引擎开发（1）

老早就想做个收索引擎了，苦于学业太重，没时间做，现在学校的课程也没了，开始完成我的收索引擎了，吼~~~网上找了些资料，总算搞明白了什么是收索引擎，原来很复杂，很复杂，但我会坚持。。。搜索引擎按其工作方式主要可分为三种，分别是全文搜索引擎（Full Text Search Engine）、目录索引类搜索引擎（Search Index/Directory）和元搜索引擎（Meta Searc...
复制链接

扫一扫

专栏目录