Python 爬虫
xuanyin235
稳住,我们能赢!!!
展开
-
Python爬虫一一第2章、数据抓取
我们需要让这个爬虫从每个网页中抽取一些数据,然后实现某些事情,这种做法也被称为抓取(scraping) 2.1 分析网页 右键单击选择View page source选项,获取网页源代码 2.2 三种网页抓取方法 2.2.1 正则表达式 当我们使用正则表达式获取面积数据时,首先需要尝试匹配<td>元素中为w2p_fw的内容,如下所示: 实现代码如下: #!/usr/...原创 2018-10-12 23:04:08 · 569 阅读 · 0 评论 -
Python爬虫一一第3章、下载缓存
对已爬取网页进行缓存,可以让每个网页只下载一次 3.1 为链接爬虫添加缓存支持原创 2018-10-13 19:00:28 · 191 阅读 · 0 评论 -
Python爬虫一一网络爬虫简介
本分类参考书籍:用Python写网络爬虫 书中采用的是Python2.7,而我使用的Python版本是Python3.7,所以在一些代码使用上做了对应修改 1.识别网站所用技术一一builtwith模块 运行结果: 2.寻找网站所有者 3.下载网页 书中介绍Python2.7中使用urllib2模块下载URL,但是我们发现Python3.0中已经不存在urllib2模块了,...原创 2018-10-08 23:49:24 · 287 阅读 · 0 评论