考研调剂信息爬取，以“小木虫”为例

最新推荐文章于 2024-03-17 17:23:41 发布

老身聊发少年狂

最新推荐文章于 2024-03-17 17:23:41 发布

阅读量5.7k

点赞数 1

分类专栏：爬虫（Python）

本文链接：https://blog.csdn.net/weixin_43850016/article/details/104442324

版权

本文介绍了如何使用Python爬虫从小木虫论坛抓取考研调剂信息，包括标题、子页面URL、学校、专业等，并存储到Excel和MongoDB，帮助考生高效筛选合适的机会。提供了不同时间段的调剂信息数据链接。

摘要由CSDN通过智能技术生成

ps：最近发现这篇文章多了不少游览量，看来随着疫情的好转一直搁置的研究生复试终于是提上了日程，为了更方便大家参考，把数据维护了一下，调剂信息已经更新到今天（4月25日），资源链接放在文末，需要的注意去重处理。

近年来，考研的形势一年严峻过一年，但除了少部分上岸的幸运儿，更多的还是陪跑的炮灰。高分落榜数见不鲜，调剂是重要的补救措施，但由于信息的不对称，很多人其实本可以有更好的选择却生生错过了机会。

小木虫调剂，一个专门发布研究生复试调剂信息的版块，分为招生信息和学生信息两部分，考生关注的主要是前者。
跟大部分论坛一样，搜索功能很坑，页面也不友好。为了更快、更精准地找到需要的调剂信息，考虑把招生信息逐条爬取下来（包括标题、子页面url、学校、专业、招生人数以及发布时间），放到excel里进行筛选，标记合适的再跳转到相应的子页面获知详情。
在这里插入图片描述
爬虫工具还是Python，数据存储用MongoDB，下面上代码。

import numpy as np
import requests
from bs4 import BeautifulSoup
import re
from lxml import etree
import random
import pymongo
import time
from multiprocessing import Pool

myclient = pymongo.MongoClient('