![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
寒风未停
励志成为互联网界的浪人
展开
-
基于python的爬虫方法总结(一)
爬虫就不用多说了,就是爬取数据。 爬取的方法很多,,但是不管用什么方法总结起来就3大步 确定要爬取的URL地址 向网站发请求获取相应的HTML页面 提取HTML页面中有用的数据 一,获取静态页面数据方法 urllib方法 1、python2 :urllib、urllib2 2、python3 :urllib.request 对应的版本不同,python的包也不同, 以python3 为例 爬取...原创 2019-01-26 23:42:18 · 4554 阅读 · 1 评论 -
分布式爬虫
基于python的 scrapy 框架,有个scrapy-redis的分布式框中框架。 其实权力就是在redis中存放了两个数据。 一个是请求队列 ,一个是url的指纹集合。 那什么是url指纹呢? 一个url有 请求方式(get,post) 请求参数,请求体. 通过sha1加密 指纹字符串=sha1(请求方式) + sha1(参数排序后的请求url) + sha1(请求体) 每次爬取url时,...原创 2019-03-30 19:17:28 · 1757 阅读 · 0 评论