1. 实例描述
通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub
网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示。那么该如何实现模拟登录的功能呢?本文实现将通过爬虫实现 GitHub
网页的模拟登录。
2. 代码实现
在实现 GitHub
网页的模拟登录时,首先需要查看提交登录请求时都要哪些请求参数,然后获取登录请求的所有参数,再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下:
(1) 点击 此处 打开 GitHub
的登录页面,然后输入账号与密码,如下图所示。
(2) 用 F12
或者 鼠标右键单击网页选择 检查
打开浏览器的开发者工具,选择获取网络请求过程,然后单击登录页面中的 Sign in
按钮,此时开发者工具中将显示 GitHub
网页的登录请求过程,重点查找名称为 session
的网络请求。如下图所示