- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 爬虫的困惑:下一步走向何处
最简单的表述,爬虫的作用就是从一个起始页面开始,抓取整个互联网。但是,互联网太大了,一个爬虫显然不可能抓取整个互联网。那么最简单的想法是,先抓取比较重要的网页,然后再抓取比较不重要的网页,同时比较频繁的更新重要的网页。这样问题就出来了,爬虫怎么知道什么网页是重要的?也许有人说,不是有pagerank算法吗?但是,pagerank是在爬下网页后根据网页之间的超级连接计算出来的,现在爬虫什么也没爬,他
2008-12-02 16:30:00 2935 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人