爬虫
yiranxd
这个作者很懒,什么都没留下…
展开
-
[python web scraping 2nd edition]1 笔记
下载网页,爬取链接import urllib.requestimport refrom urllib.error import URLError, HTTPError, ContentTooShortErrordef download(url,user_agent='scrap', num_retries=2,charset='utf-8'): print('Downloadi...原创 2019-03-07 09:26:35 · 118 阅读 · 0 评论 -
[python web scraping 2nd edition]2 笔记
2.1 3种抓取网页的方法1.正则表达式使用正则表达式匹配网页中的元素。此方案的弊端是,网页若发生变化,则方法很可能会失效。同时该方法存在难以构造、可读性差等问题。2.Beautiful SoupBeautiful Soup是Python模块,可解析网页,并提供了定位元素的接口。Beautiful Soup首先将网页解析成soup文档,接着利用find()、find_all()等定位...原创 2019-03-18 16:46:55 · 199 阅读 · 0 评论 -
[python web scraping 2nd edition]3 笔记
本地缓存第二章学习了如何爬取网页并保存数据,但如果想另外再提取数据,则需要重新下载网页,对于大型网站这是个不小的时间消耗,因此可以先把网页存储,而不用重新下载。1.为链接爬虫添加缓存支持下载网页之前需要先检查该网页是否已缓存之后需检查是否有服务器错误若都没问题可直接从缓存提取数据,否则需重新下载网页另,只有在下载网页之前才需要限速from random import choicei...原创 2019-03-22 14:41:01 · 120 阅读 · 0 评论 -
[python web scraping 2nd edition]4 笔记
并发并行下载Alexa提供了最受欢迎的100万个网站列表(http://www.alexa.com/topsites ),我们也可以通过http://s3.amazonaws.com/alexa-static/top-1m.csv.zip 直接下载这一列表的压缩文件,这样就不用去提取Alexa网站的数据了。解析Alexa listDownload the .zip file.Extrac...原创 2019-03-29 10:06:02 · 188 阅读 · 0 评论