ps:最近发现这篇文章多了不少游览量,看来随着疫情的好转一直搁置的研究生复试终于是提上了日程,为了更方便大家参考,把数据维护了一下,调剂信息已经更新到今天(4月25日),资源链接放在文末,需要的注意去重处理。
近年来,考研的形势一年严峻过一年,但除了少部分上岸的幸运儿,更多的还是陪跑的炮灰。高分落榜数见不鲜,调剂是重要的补救措施,但由于信息的不对称,很多人其实本可以有更好的选择却生生错过了机会。
小木虫调剂,一个专门发布研究生复试调剂信息的版块,分为招生信息和学生信息两部分,考生关注的主要是前者。
跟大部分论坛一样,搜索功能很坑,页面也不友好。为了更快、更精准地找到需要的调剂信息,考虑把招生信息逐条爬取下来(包括标题、子页面url、学校、专业、招生人数以及发布时间),放到excel里进行筛选,标记合适的再跳转到相应的子页面获知详情。
爬虫工具还是Python,数据存储用MongoDB,下面上代码。
import numpy as np
import requests
from bs4 import BeautifulSoup
import re
from lxml import etree
import random
import pymongo
import time
from multiprocessing import Pool
myclient = pymongo.MongoClient('