Python动态柱状图图表可视化：历年软科中国大学排行！

最新推荐文章于 2024-07-21 22:55:55 发布

爬遍天下无敌手

最新推荐文章于 2024-07-21 22:55:55 发布

阅读量640

点赞数

本文链接：https://blog.csdn.net/weixin_43881394/article/details/106988850

版权

本文介绍如何使用Python爬取并可视化软科中国大学历年排名数据。通过解析HTML，存储数据到CSV，然后利用d3.js库创建动态柱状图，展示大学排名变化。文章详细讲解了解析过程、数据清洗以及可视化调整，帮助读者实现自己的数据可视化项目。

摘要由CSDN通过智能技术生成

本来想参照： https://mp.weixin.qq.com/s/e7Wd7aEatcLFGgJUDkg-EQ 搞一个往年编程语言动态图的，奈何找不到数据，有数据来源的欢迎在评论区留言。

这里找到了一个，是2020年6月的编程语言排行，供大家看一下： https://www.tiobe.com/tiobe-index/

我们要实现的效果是：

大学排名来源： http://www.zuihaodaxue.com/ARWU2003.html

部分截图：

在http://www.zuihaodaxue.com/ARWU2003.html中的年份可以选择，我们解析的页面就有了：

"http://www.zuihaodaxue.com/ARWU%s.html" % str(year)

初步获取页面的html信息的代码：

def get_one_page(year):
    try:
        headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
            }
        url = "http://www.zuihaodaxue.com/ARWU%s.html" % str(year)
        response=requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.content
    except RequestException:
        print('爬取失败')

我们在页面上进行检查：

数据是存储在表格中的，这样我们就可以利用pandas获取html中的数据，基本语法：

tb = pd.read_html(url)[num]

其中的num是标识网页中的第几个表格，这里只有一个表格，所以标识为0。初步的解析代码就有了：

def parse_on_page(html,i):
    tb=pd.read_html(html)[0]
    return tb

我们还要将爬取下来的数据存储到csv文件中，基本代码如下：

def save_csv(tb):
    start_time=time.time()
    tb.to_csv(r'university.csv', mode='a', encoding='utf_8_sig', header=True, index=0)
    endtime = time.time()-start_time
    print('程序运行了%.2f秒' %endtime)

最后是一个主函数，别忘了还有需要导入的包：

import requests
from requests.exceptions import RequestException
import pandas as pd
import time
def main(year):
    for i in range(2003,year):
        html=get_one_page(i)
        tb=parse_on_page(html,i)
        #print(tb)
        save_csv(tb)
if __name__ == "__main__":
    main(2004)

运行之后，我们在同级目录下就可以看到university.csv，部分内容如下：

最低0.47元/天解锁文章

爬遍天下无敌手

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python动态柱状图图表可视化：历年软科中国大学排行！

本来想参照：https://mp.weixin.qq.com/s/e7Wd7aEatcLFGgJUDkg-EQ搞一个往年编程语言动态图的，奈何找不到数据，有数据来源的欢迎在评论区留言。这里找到了一个，是2020年6月的编程语言排行，供大家看一下：https://www.tiobe.com/tiobe-index/我们要实现的效果是：大学排名来源：http://www.zuihaodaxue.com/ARWU2003.html部分截图：在http://www.zui...
复制链接

扫一扫