用Python分析全国高等教育分布情况，这个地方绝对排第一！

最新推荐文章于 2023-03-14 20:48:22 发布

一枚新手程序媛

最新推荐文章于 2023-03-14 20:48:22 发布

阅读量662

点赞数 2

分类专栏： Python爬虫 Python数据分析文章标签： Python Python爬虫 Python数据分析编程语言

本文链接：https://blog.csdn.net/weixin_45545884/article/details/103168621

版权

这篇博客使用Python爬虫获取并分析了全国高校数据，揭示了高校数量与质量的地区差异。江苏、山东、湖北、广东等高考大省高校数量领先，北京在高质量985、211高校中占据首位。通过热力图展示了高校分布，指出北京、长三角地区是高质量院校聚集地。此外，文章还探讨了不同类型和属性的高校分布情况。

摘要由CSDN通过智能技术生成

前段时间很多学子们都迈入了自己理想中的大学。只是当我们站在象牙塔前，再回首凝望高中生活，一路走来，是不是会感慨万千呢。都说高考是普通大众改变命运的最好的阶梯，那么大学就是培养能力，形成品格的试验田，而通向这块田地的之路却并不平坦。尤其是一些高考大省的小伙伴儿们，是经历了怎样的拼搏，才一路拼杀过来的呢。

这里就涉及到了各个省份的招生标准和各省的高校资源情况了，毕竟每个省的高校，在本省的招生数量既多，要求又低（差不多是这样…）。

都说高考其实是相对公平的选拔，那么今天我们就用数据来说话，看看全国的教育资源，高校分布到底是怎样，哪里的小伙伴相对来说，更容易踏入大学的校门呢。

数据获取

这里我选择的是“高考网”作为我数据的来源

http://college.gaokao.com/schlist/p1

网站很简单，也没有任何的反爬机制，直接分析页面，获取并保存数据就可以了
这里直接给出代码，不关心数据获取过程的小伙伴儿可以跳过此部分

import requests
from bs4 import BeautifulSoup
import os
import time

def get_data():
    for i in range(1, 108):
        print("正在下载第%s页数据" % i)
        url = 'http://college.gaokao.com/schlist/p%s' % i
        res = requests.get(url).text
        content = BeautifulSoup(res, "html.parser")
        college_list = content.find('div', attrs={'class': 'scores_List'}).find_all('dl')
        items = map(parse_item, college_list)
        save_to_csv(items)
        time.sleep(1)

def parse_item(item):
    college_name = item.find('strong')['title']
    college_attr = item.find_all('li')
    college_site = college_attr[0].text[6:]
    college_title = colleg