新冠疫情可视化

最新推荐文章于 2024-04-16 04:09:13 发布

HappyGuya

最新推荐文章于 2024-04-16 04:09:13 发布

阅读量1.9k

点赞数 1

分类专栏： python pyecharts 文章标签：可视化数据库 python 字符串

本文链接：https://blog.csdn.net/weixin_43684667/article/details/118636314

版权

python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

pyecharts

1 篇文章 0 订阅

订阅专栏

新冠疫情可视化

本次实践基于丁香园公开的统计数据，实现新冠疫情可视化，包括疫情地图、疫情增长趋势图、疫情分布图等。
全国疫情地图如下：
在这里插入图片描述
疫情增长趋势图如下：

一、数据准备

利用爬虫将数据保存至数据库进行数据处理即可。

request模块：

requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/
re模块：
re模块是python用于匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的

数据爬取以json文件格式存储并可视化利用pyecharts Map

import json
import re
import requests
import datetime

today = datetime.date.today().strftime("%Y%m%d")
"""
    爬取丁香园实时统计数据，保存到data目录下，以当前日期作为文件名，存JSON文件
"""
response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia')
print(response.status_code)    
def crawl_dxy_data():
    """
    爬取丁香园实时统计数据，保存到data目录下，以当前日期作为文件名，存JSON文件
    """
    response = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia') #request.get()用于请求目标网站
    print(response.status_code)                                          # 打印状态码


    try:
        url_text = response.content.decode()                             #更推荐使用response.content.deocde()的方式获取响应的html页面
        #print(url_text)
        url_content = re.search(r'window.getAreaStat = (.*?)}]}catch',   #re.search():扫描字符串以查找正则表达式模式产生匹配项的第一个位置 ，然后返回相应的match对象。
                                url_text, re.S)                          #在字符串a中，包含换行符\n，在这种情况下：如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始;
                                                                         #而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。
        texts = url_content.group()                                      #获取匹配正则表达式的整体结果
        content = texts.replace('window.getAreaStat = ', '').replace('}catch', '') #去除多余的字符
        json_data = json.loads(content)                                         
        with open('data/' + today + '.json', 'w', encoding='UTF-8') as f:
            json.dump(json_data, f, ensure_ascii=False)
    except:
        print('<Response [%s]>' % response.status_code)
def crawl_statistics_data():
    """
    获取各个省份历史统计数据，保存到data目录下，存JSON文件
    """
    with open('data/'+ today + '.json', 'r', encoding='UTF-8') as file:
        json_array = json.loads(file.read())

    statistics_data = {}
    for province in json_array:
        response = requests.get(province['statisticsData'])
        try:
            statistics_data[province['provinceShortName']] = json.loads(response.content.decode())['data']
        except:
            print('<Response [%s]> for url: [%s]' % (response.status_code, province['statisticsData']))

    with open("data/statistics_data.json", "w", encoding='UTF-8') as f:
        json.dump(statistics_data, f, ensure_ascii=False)
if __name__ == '__main__':
    crawl_dxy_data()
    crawl_statistics_data()

HappyGuya

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
新冠疫情可视化

新冠疫情可视化本次实践基于丁香园公开的统计数据，实现新冠疫情可视化，包括疫情地图、疫情增长趋势图、疫情分布图等。全国疫情地图如下：疫情增长趋势图如下：一、数据准备利用爬虫将数据保存至数据库进行数据处理即可。request模块：requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/re模块：re模块是python用于匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的数据爬取以
复制链接

扫一扫