2020考研如此激烈，还怕获得不了最新的调剂信息么？来对小木虫考研调剂信息爬取

最新推荐文章于 2024-03-17 17:23:41 发布

VIP文章 Chemlez

最新推荐文章于 2024-03-17 17:23:41 发布

阅读量3.3k

点赞数 2

分类专栏： Python 爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44782094/article/details/105419332

版权

一、说明

由于国家线快出了，故写了一份爬取小木虫网站调剂信息的爬虫代码，方便信息查看。此代码仅用于学习，不作为任何商业用途。
本代码可爬取小木虫任何年份，任何专业的调剂信息。

二、代码

#!~/opt/anaconda3/bin/python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
import os


# 获取网页
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''


# 获取数据
def getDataInfo(infoList, url, pre_params, *args):
    params = []
    count = -1
    for i in args:
        count += 1
        par_ = pre_params[count] + i
        params.append(par_)
	
    # 根据参数获取访问链接
    for param in params:
        url += param + '&'

    # print(url)
    html = getHTMLText(url)
    soup = BeautifulSoup(html, 'html.parser')

    # 获取页码数，并处理空页异常
    try:
        pages_tag = soup.find_all(

最低0.47元/天解锁文章

Chemlez

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
2020考研如此激烈，还怕获得不了最新的调剂信息么？来对小木虫考研调剂信息爬取

title: 对小木虫考研调剂信息的爬取categories:[Python,爬虫]tags:爬虫正则表达式RequestBeautifulsouptop: ‘’thumbnail: ‘’cover: falsedate: 2020-04-09 20:15:36icons:一、说明由于国家线快出了，故写了一份爬取小木虫网站调剂信息的爬虫代码，方便信息查看。此代码...
复制链接

扫一扫