python爬取中国教育在线数据

最新推荐文章于 2024-04-30 19:24:04 发布

VIP文章螺旋大西瓜

最新推荐文章于 2024-04-30 19:24:04 发布

阅读量2.2k

点赞数

分类专栏： Python 文章标签： python 数据挖掘数据分析

本文链接：https://blog.csdn.net/weixin_45208256/article/details/124950788

版权

毕设需要参考网上大佬做了个简单的爬虫，对python不熟悉写的不好。
专业信息爬取


```python
# coding=utf-8
import json
import pandas as pd
import requests
def detail(page_num):
    heads = {
   
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}  # 请求头
    url = 'https://static-data.gaokao.cn/www/2.0/special/%s/pc_special_detail.json'#Url
    d2 = pd.DataFrame()
    #分页爬取一页10个,需要对pandas进行安装pip install openpyxl
    for i in range(1,page_num):
        response = requests.get(url % (i), headers=heads)
        if response!=None:
            json_data = json.loads(response.text)
            my_json = json_data['data'] # 获得josn 数据的根目录
            df3 = pd.DataFrame({
   #d对my_json中文件进行获取
                'id':my_json['id'],
                'name':my_json['name'],
                '内容':my_json['content'],
                '工作':my_json['job'],
                'code':my_json['code'],
                'degree':my_json['degree'],
                '年限':my_json['limit_year'],
                '男女比例':my_json['rate'],
                'type':my_json['type'],
                'type_detail':my_json['type_detail']
            }, index=[0])
            d2 = d2.append(df3, ignore_index=True)
    print(d2)
    d2.to_excel("major.xlsx", index=False)

detail(5)

院校数据爬取
爬取的是2021年的院校录取最低分和院校的部分信息

import json

import numpy as np
import pandas as pd
import requests
import os
import time
import random
class School:
    school_id:""
    type:""
    name:""
    province_name:""
    city_name:""
    f211:""
    f985:""
    dual_class_name:""

#院校历年数据
#先循环获取每一页中的院校id，再从院校id进行准备的历年数据获取
def get_one_page(page_num):
    heads={
   'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}#请求头，这个还是可以懂的
    url='https://api.eol.cn/gkcx/api/?access_token=&admissions=&central=&department=&dual_class=&f211=&f985=&is_doublehigh=&is_dual_class=&keyword=&nature=&page=%s&province_id=&ranktype=&request_type=1&school_type=&signsafe=&size=20&sort=view_total&top_school_id=[766,707]&type=&uri=apidata/api/gk/school/lists'
    list=[]
    df_all = pd.DataFrame()
    for i in range(1, page_num):  # 这个不用说了吧，用 i 来取代页码，从1到143
        response = requests.get(url % (i), headers=heads)  # 这个也不用说了，得到

最低0.47元/天解锁文章

螺旋大西瓜

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
python爬取中国教育在线数据

毕设需要参考网上大佬做了个简单的爬虫，对python不熟悉写的不好。专业信息爬取```python# coding=utf-8import jsonimport pandas as pdimport requestsdef detail(page_num): heads = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)
复制链接

扫一扫