网络爬虫
敲代码的胖虎
什么样的年龄,做什么样的事。
展开
-
网络爬虫——简介
爬虫笔记(一)网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本(参考百度百科)。一、爬虫分类爬虫,可分为四大类(通用爬虫、聚焦爬虫、增量式爬虫、深度爬虫)对应不同的需求场景。通用爬虫通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 W...原创 2019-01-06 12:19:00 · 797 阅读 · 2 评论 -
网络爬虫——正则表达式用法及实例
正则表达式简单来说,正则表达式就是描述字符串的一套规则。比如,我们想找出一个网页中的所有URL链接,其他的信息需要过滤掉。那么此时,我们可以观察链接的格式,然后写一个正则表达式来表示所有的电子邮件。随后,我们可以利用该表达式从网页中提取出所有满足该规则的URL链接。正则表达式的功能非常强大,在爬虫的实际项目中,对于处理特定格式的信息,经常需要用到正则表达式。在Python中,可以使用re模块来...原创 2019-01-06 13:47:31 · 2880 阅读 · 0 评论 -
网络爬虫——爬虫实战(一)
图片爬虫实战假如我们想把jd商城的商品图片下载到本地,通过手工复制粘贴将是一份非常庞大的工程,此时,可以用Python网络爬虫实现。我们可以通过Python网络爬虫将这些网页上的图片全部爬取到本地,这类爬虫称为图片爬虫。首先打开jd商城的首页,在搜索输入框中输入想要爬取的商品,例如:裤子。如下图所示:再查看该网页的网址,该网址就是我们需要爬取的起始页面,如下图所示:一、主函数if _...原创 2019-01-06 17:29:02 · 1549 阅读 · 1 评论