爬虫
Purple Coast
这个作者很懒,什么都没留下…
展开
-
爬虫第一节&使用urllib.request爬取
1.直接爬取百度首页#导入模块import urllib.request as urllib2#向指定的url发送请求,并返回服务器响应的类文件对象request = urllib2.urlopen('http://www.baidu.com/')#类文件对象支持 文件对象的操作方法,如read()方法读取文件全部内容,返回字符串html = request.read()#转码...原创 2019-07-09 23:38:37 · 427 阅读 · 0 评论 -
爬虫第二节&Get和Post
1.urllib.urlencode()urllib 和 urllib2区别:urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例;urllib 提供 urlencode 方法用来GET查询字符串的产生,而 urllib2 则没有。(这是 urllib 和 urllib2 经常一起使用的主要原因)编码工作使用urllib的urlencode()函数,...原创 2019-07-10 22:45:37 · 387 阅读 · 0 评论 -
第三节&Handler处理器 和 自定义Opener的使用
1.Handler处理器 和 自定义Openeropener是 urllib2.OpenerDirector 的实例,前面使用的urlopen,就是一个特殊的opener(也就是模块帮我们构建好的)。基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:1.使用相关的 Handler处理器 来创建特定功能的处理器对象;2 然后通过...原创 2019-07-16 00:17:22 · 332 阅读 · 0 评论 -
第四节&保存cookie值模拟登录
1.CookieCookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。原理HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性,包括:Cookie名字(Name)Cookie的值(Value)Cookie的过期时间...翻译 2019-07-18 22:40:32 · 264 阅读 · 0 评论