搜索引擎(1)Spider抓取网页

为了获得互联网资源,需要进行网页的抓取和采集。

  1. 首先需要编写爬虫Spider,可以从网络上下载网页(Pages)的源文件。

https://liaoliao.codeplex.com/SourceControl/latest#SearchEngine/trunk/OpenSearchEngine/Spider.cs

爬虫程序代码


todo 表或者visited 表一般用ArrayList 或者HashMap 实现,它们只能在内存中,但内存是有限的。开始的时候,有人把todo 表或者visited 表放在数据库中。但数据库对于这种简
单的结构化存储来说,不够轻量级。
BerkeleyDB 是一个嵌入式数据库。底层实现采用B 树。可以看成可以存储大量数据的HashMap。它简称BDB,官方网址是:http://www.oracle.com/database/berkeleydb/index.html 。c++版本,然后实现了Java 本地版本(《自己动手写搜索引擎》)

2、经html 解析

3、分词

4索引

最终实现网页式站内搜索。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值