爬虫爬取中国大学排名top100并简单可视化分析

最新推荐文章于 2024-09-19 23:38:37 发布

y9j5015

最新推荐文章于 2024-09-19 23:38:37 发布

阅读量6.1k

点赞数 5

文章标签： python 爬虫大学排名数据分析

本文链接：https://blog.csdn.net/y9j5015/article/details/102703525

版权

使用Python爬虫爬取了中国大学排名前100的数据，将其存储为CSV文件，并进行了简单分析及可视化。结果显示，清华大学评分最高，北京地区的高校数量在前100名中占比最多，揭示了教育质量与地区经济发展的关联。

摘要由CSDN通过智能技术生成

爬虫爬取中国大学排名top100并简单可视化分析。

目标链接
http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html
实践环境
pycharm2018+python3.7
实践思路
首先进入目标链接，查看目标数据是否为动态变化。
确认非动态变化后，对页面进行解析，提取需要的相关数据信息。
将数据存入csv文件中并保存。
后对保存的数据进行简单的数据分析并可视化。
实践过程
一、数据抓取
判断目标数据非动态变化后，可进行数据抓取。
代码如下:
（1）获取网站页面’’’

def getHTMLText(url):
    try:
        resp = request.urlopen(url)
        html_data = resp.read().decode('utf-8')
        return html_data
    except:
        return ""

'''（2）处理页面，提取相关信息'''


def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:  # 搜索'tbody'后面的子节点
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].st