为了获得互联网资源,需要进行网页的抓取和采集。
- 首先需要编写爬虫Spider,可以从网络上下载网页(Pages)的源文件。
https://liaoliao.codeplex.com/SourceControl/latest#SearchEngine/trunk/OpenSearchEngine/Spider.cs
爬虫程序代码
todo 表或者visited 表一般用ArrayList 或者HashMap 实现,它们只能在内存中,但内存是有限的。开始的时候,有人把todo 表或者visited 表放在数据库中。但数据库对于这种简
单的结构化存储来说,不够轻量级。
BerkeleyDB 是一个嵌入式数据库。底层实现采用B 树。可以看成可以存储大量数据的HashMap。它简称BDB,官方网址是:http://www.oracle.com/database/berkeleydb/index.html 。c++版本,然后实现了Java 本地版本(《自己动手写搜索引擎》)
2、经html 解析
3、分词
4索引
最终实现网页式站内搜索。