Crawler学习
文章平均质量分 78
有田十三
Everyday has its question
展开
-
Crawler学习:2.Download Pages
声明:所有内容均为本人学习《自己动手写网络爬虫》心得,有任何疑问可以参考原文。 1.网页抓取 所谓网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。 Java 语言是为网络而生的编程语言,它把网络资源看成是一种文件,它对网络资源的访问和对本原创 2013-12-15 15:03:59 · 1186 阅读 · 0 评论 -
Crawler学习:1.Overview of Crawler
声明:所有内容均为本人学习《自己动手写网络爬虫》心得,有任何疑问可以参考原文。 学习事由: 因为前段时间“照妖镜事件”以及近来云计算的学习,突然感觉到了大数据的魅力。 但是在小七强大的数据分析能力之下,体现的是其团队扎实的技术实力。 《数据的游戏:冰与火》中说道:在大数据时代下,数据象征着权利。 诚然,我们需要的不再是抛弃数据追求结果的数据小农,而是在大数据兵临城下处之泰然的数据原创 2013-12-14 18:02:45 · 768 阅读 · 0 评论 -
Crawler学习:3.Crawler Design
声明:所有内容均为本人学习《自己动手写网络爬虫》心得,有任何疑问可以参考原文。 爬虫示例结构示意图 我们可以简单得把每一个url代表的网页看作一个节点,那么网络可以看成是由若干个节点及其边组成的图。 那么爬虫的过程就是要遍历这个图,搜索我们有用的信息。 遍历图的过程有很多种,最简单的为宽度遍历、深度遍历。 以宽度遍历为例,假设我们的爬虫不具有任何偏好,我们原创 2013-12-29 23:50:10 · 883 阅读 · 0 评论 -
Crawler学习:4.Improve Performance
声明:所有内容均为本人学习《自己动手写网络爬虫》心得,有任何疑问可以参考原文。 提高爬虫的表现性涉及到很多方面。 针对不同的需求设计相应的爬虫队列以及爬行的策略,是各大搜索引擎的核心竞争力。 在此只针对之前的简单爬虫进行分析。 1.Url压缩 通常我们获得Url为较长的字符串,并将其作为key来进行存储查找匹配。 为了提高匹配效率及节省存储空间,首先得到Url时可以进行原创 2014-01-02 17:55:28 · 669 阅读 · 0 评论