Python爬虫——查询英语四、六级成绩

本文介绍如何利用Python编写爬虫查询英语四、六级考试成绩。通过分析网页请求,提取验证码图片,手动输入验证码,然后构造查询请求,使用正则表达式解析返回的成绩信息。
摘要由CSDN通过智能技术生成

今天出六级成绩,很多人在成绩出来之后的一段时间都查询不到自己的成绩。晚上有空就写了一个爬虫。


首先进入查询四、六级成绩的网页,这里使用的是“http://cet.neea.edu.cn/cet”

进入之后发现不能右键查看源代码,不过也没有关系,直接打开开发者工具
输入前两个信息后点击验证码输入框,发现出现两个新的GET请求
这里写图片描述

显然这是获取验证码的相关请求。点击第一个请求,可以发现验证码图片链接就在其中
这里写图片描述

后期可以使用正则表达式直接提取。再看请求信息。

这里写图片描述
可见此GET请求的url的参数包含3个参数:

  1. 考试类别。这里是查询英语四六级成绩,所以可以设置为固定的’CET’
  2. 准考证号
  3. 一个小数

第三个参数初步猜测是一个随机数,但是不确定。可以看见该网页的JavaScript源码

这里写图片描述

可以找到网站构造请求的方法。其中的Math.random()说明之前的猜测是正确的。

然后在请求返回的内容中提取图片地址:img_url = re.compile('"(.*?)"').findall(response.text)[0]

获取验证码图片并保存到本地的代码如下(因为有验证码的相关操作,所以涉及到Cookies,为了方便使用会话Session):

#得到相关考生信息
def get_info():
    id_num = input("输入准考证号:")
    name = input("输入姓名:")
    return id_num, name

#获取图片
def get_img(Session, id_numm):
    try:
        headers = {
   
            'Connection': 'keep - alive',
            'Host': 'cache.neea.edu.cn',
            'Referer': 'http://cet.neea.edu.cn/cet',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3486.0 Safari/537.36',
        }
        Session.headers = headers
        get_url = 'http://cache.neea.edu.cn/Imgs.do?'
        params = {
   
            'c': 'CET',
            'ik': id_numm,
            't': random.random()
        }
        response = Session.get(get_url, params=params)
        img_url = re.compile('"(.*?)"').findall(response.text)[0]
        img = requests.get(img_url, timeout=None)
        with open('D:/img.png', 'wb') as f:
            f.write(img.content)
    except Exception as e:
        print("Imgae_Error:", e.args)

本来想使用tesserocr来进行图片识别,结果发现如果不对图片进行较多的预处理,不能直接识别出图片中的验证码,于是直接简单粗暴的让用户输入:)

 def get_score(Session, id_num, name, level):
    Image.open('D:/img.png').show()
    capcha = input('请打开图片输入验证码:')

到这里,可以开始构造查询成绩的请求了。再分析请求信息:在输入正确信息后观察
这里写图片描述

找到查询成绩的POST请求,查看其信息:
这里写图片描述

发现传递的数据中有两项:

  1. 包含三个参数:考试代码,准考证考,考生姓名
  2. 验证码

再看访问网页时产生的请求,发现data.js中有相关信息:

这里写图片描述

可见tab对应的value就是考试代码。而上网查询可知准考证考中的第九位是判断考试类别的。至此,POST请求分析结束,开始写代码:

def get_info():
    id_num = input("输入准考证号:")
    name = input("输入姓名:")
    level = id_num[9]
    return id_num, name, level
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值