最近在学习python,发现通过python爬取网页信息确实方便,以前用C++写了个简单的爬虫,爬取指定网页的信息,代码随便一写都几百行,而要用python完成相同的工作,代码量相当少。前几天看到了一个博客上讲解如何使用python写的爬虫爬取成绩信息,看了之后,自己实战了一番,并且达到了相同的效果。
整个过程和那篇博客所写的过程相同,不过由于我们学校的成绩查询系统要输入验证码,所以步骤稍微繁琐一点。
1.了解查询过程
使用的工具当然也是HttpFox插件。开启HttpFox插件后,我登录了成绩系统并且查询了成绩。然后发现httpFox检测到了很多条信息:
可以看到,当我们第一次访问成绩管理系统的时候,浏览器向服务器发送了一个GET请求,而服务器返回的消息头部中给定了Cookie值,如下图: