实现网站登录
通过Request库的Session()函数实现登陆
由于UTC的网站只有学生账号登陆之后才能使用,首先要实现的就是登陆功能。
1.登录方式分析
通常实现登陆功能有三种方法:
1.POST 请求方法:需要在后台获取登录的 URL并填写请求体参数,然后 POST 请求登录,相对麻烦;
2.添加 Cookies 方法:先登录将获取到的 Cookies 加入 Headers 中,最后用 GET 方法请求登录,这种最为方便;
3.Selenium 模拟登录:代替手工操作,自动完成账号和密码的输入,简单但速度比较慢。
由于学生账号较为隐私,因此要求用户每次使用的时候都输入账号密码,因此Cookies的方法无法应用。出于速度考虑没有使用Selenium。因此选用第一种POST请求的方法进行登陆。
2. 使用POST请求进行登陆
本项目中使用的登陆方法是利用requests库中的 post() 方法发起请求,构造请求头并向服务器发送账号密码,利用 session() 方法保持连接,之后利用 get() 方法获取需要的网页。
2.1 分析登陆请求的结构
UTC的学生登陆界面如下:
链接:https://cas.utc.fr/cas/login
由于该登陆界面只需要简单地输入账号密码即可登陆,所以此处并不需要用到一些处理验证码等反爬虫措施的应用,简化了登陆的操作
按F12进入谷歌浏览器的开发者工具,清空所有请求,勾选 “Preserve log” 选项取消进入新页面自动清除log的功能,然后在登陆界面输入账号密码完成登陆。
为了找到请求头的构造,首先需要找到对应的请求,根据经验我们从名字类似 “login” 的文件入手。
从login文件我们可以看到 General 属性里的 Rquest URL 项正对应了登陆界面的链接,form data中的参数正对应了账号密码,说明成功找到了登陆请求。
2.2 构造请求头并尝试登陆
构建headers字典,用