![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spider
bob于
这个作者很懒,什么都没留下…
展开
-
把玩之python爬虫urllib2高级篇
之前我们设置了一个headers 在构建request时传入。但有些服务器会识别headers中的referer是不是它自己,如果不是,有些服务器是不会响应的。为了对付“反盗链”我们>可以在headers中加入referer,如下: import urllib import urllib2 url="http://..." val转载 2016-06-17 09:40:10 · 575 阅读 · 0 评论 -
把玩之python爬虫cookie篇
原文链接:静觅 » Python爬虫入门六之Cookie的使用 为什么要使用cookie? cookie是指网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据(通常是经过加密的) 如果你未登录,想获取某个页面的内容是不被允许的。我们可以利用urllib2保存登录的cookie信息,然后获取页面内容。 1,Opener转载 2016-06-17 15:29:07 · 3481 阅读 · 0 评论 -
把玩之python爬虫正则表达式
正则表达式相关注解: 1),数量词的贪婪模式与非贪婪模式 正则表达式通常用于在文本中查找匹配的字符串。python里的数量词默认是贪婪的(在少数语言里可能是默认非贪婪的),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式“ab*”如果用于查找“abbbc”,将找到“abbb”。而如果是非贪婪的数量词“ab*?”,将找到“a”。转载 2016-06-17 18:08:42 · 481 阅读 · 0 评论 -
把玩之糗事百科简单页面信息爬虫
原文链接:静觅 » Python爬虫实战一之爬取糗事百科段子 这个例子是对糗事百科的简单页面爬虫,但是由于糗事百科已经改版,或许运行不成功,主要是为了学习下爬虫完整过程。后序会有改正:请等待。。。 #coding:utf-8 import urllib import urllib2 import re page=1 url='http://www.qiushibaike.com/hot/转载 2016-06-20 16:19:59 · 430 阅读 · 0 评论