搜索引擎(1)Spider抓取网页

最新推荐文章于 2016-01-04 20:57:25 发布

whucv

最新推荐文章于 2016-01-04 20:57:25 发布

阅读量945

点赞数

分类专栏：搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/archielau/article/details/30123335

版权

搜索引擎专栏收录该内容

3 篇文章 0 订阅

订阅专栏

为了获得互联网资源，需要进行网页的抓取和采集。

首先需要编写爬虫Spider，可以从网络上下载网页（Pages）的源文件。

https://liaoliao.codeplex.com/SourceControl/latest#SearchEngine/trunk/OpenSearchEngine/Spider.cs

爬虫程序代码

todo 表或者visited 表一般用ArrayList 或者HashMap 实现，它们只能在内存中，但内存是有限的。开始的时候，有人把todo 表或者visited 表放在数据库中。但数据库对于这种简
单的结构化存储来说，不够轻量级。
BerkeleyDB 是一个嵌入式数据库。底层实现采用B 树。可以看成可以存储大量数据的HashMap。它简称BDB，官方网址是：http://www.oracle.com/database/berkeleydb/index.html 。c++版本，然后实现了Java 本地版本（《自己动手写搜索引擎》）

2、经html 解析

3、分词

4索引

最终实现网页式站内搜索。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎(1)Spider抓取网页

首先需要编写爬虫Spider，可以从网络上下载网页（Pages）的源文件。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。