yiranxd-CSDN博客

原创 [python web scraping 2nd edition]4 笔记

并发并行下载Alexa提供了最受欢迎的100万个网站列表（http://www.alexa.com/topsites ），我们也可以通过http://s3.amazonaws.com/alexa-static/top-1m.csv.zip 直接下载这一列表的压缩文件，这样就不用去提取Alexa网站的数据了。解析Alexa listDownload the .zip file.Extrac...

2019-03-29 10:06:02 194

原创 [python web scraping 2nd edition]3 笔记

本地缓存第二章学习了如何爬取网页并保存数据，但如果想另外再提取数据，则需要重新下载网页，对于大型网站这是个不小的时间消耗，因此可以先把网页存储，而不用重新下载。1.为链接爬虫添加缓存支持下载网页之前需要先检查该网页是否已缓存之后需检查是否有服务器错误若都没问题可直接从缓存提取数据，否则需重新下载网页另，只有在下载网页之前才需要限速from random import choicei...

2019-03-22 14:41:01 127

原创 [python web scraping 2nd edition]2 笔记

2.1 3种抓取网页的方法1.正则表达式使用正则表达式匹配网页中的元素。此方案的弊端是，网页若发生变化，则方法很可能会失效。同时该方法存在难以构造、可读性差等问题。2.Beautiful SoupBeautiful Soup是Python模块，可解析网页，并提供了定位元素的接口。Beautiful Soup首先将网页解析成soup文档，接着利用find()、find_all()等定位...

2019-03-18 16:46:55 207

原创 [机器学习实战]中程序执行问题修改

1.第4章：朴素贝叶斯垃圾邮件分类项目中def spamTest(): ''' Desc: 对贝叶斯垃圾邮件分类器进行自动化处理。 Args: none Returns: 对测试集中的每封邮件进行分类，若邮件分类错误，则错误数加 1，最后返回总的错误百分比。 ''' import random ...

2019-03-14 11:06:45 190

原创 [python web scraping 2nd edition]1 笔记

下载网页，爬取链接import urllib.requestimport refrom urllib.error import URLError, HTTPError, ContentTooShortErrordef download(url,user_agent='scrap', num_retries=2,charset='utf-8'): print('Downloadi...

2019-03-07 09:26:35 125

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人